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内 容 简介 


本 书面 向 所 有 对 机 器 学 习 与 数据 挖掘 的 实践 及 竞赛 感 兴趣 的 读者 ,从 零 开始 ,以 Python 编程 语言 为 基础 ,在 不 涉及 大 
量 数学 模型 与 复杂 编程 知识 的 前 提 下 ,逐步 带领 读者 熟悉 并 且 人 掌 握 当 下 最 流行 的 机 器 学 习 、 数 据 挖 掘 与 自然 语言 处 理工 
具 , 如 Scikit-learn. NLTK .Pandas.gensim, XGBoost.Google Tensorflow 等 。 

全 书 共 分 4 章 。 第 1 章 简介 篇 ,介绍 机 器 学 习 概念 与 Python 编程 知识 ;第 2 章 基础 篇 ,讲述 如 何 使 用 Scikit-learn 作为 
基础 机 器 学 习 工 具 ; 第 3 章 进 阶 篇 ,涉及 怎样 借助 高 级 技术 或 者 模型 进一步 提升 既 有 机 器 学 习 系 统 的 性 能 ;第 4 章 竞 赛 篇 ， 
以 Kaggle 平台 为 对 象 ,帮助 读者 一 步 步 使 用 本 书 介 绍 过 的 模型 和 技巧 ,完成 三 项 具有 代表 性 的 竞赛 任务 。 
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清华 大 学 计算 机 系 教授 ,博士 生 导师 

顶 你 学 堂 创始 人 、 中 国 高 科 股份 有 限 公 司 教育 事业 部 副 总 经 理 
创业 沙拉 联合 创始 人 

精 一 天 使 公社 合伙 人 

清华 大 学 计算 机 系 教授 、 教 育 部 教育 信息 化 技术 标准 委员 会 专家 兼 秘 书 长 
华东 师范 大 学 终身 教授 教育 技术 学 博士 生 导 师 
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业 , 万 众 创新 ”作为 创新 驱动 发 展 战略 的 最 主要 实施 方案 ,有 效 改 善 了 我 国 就 业 困难 、 行 业 
升级 效率 低下 等 局 面 。 

变化 颠覆、 创新 早已 成 为 我 们 这 个 时 代 的 主旋律 ,这 是 我 们 酝酿 这 套 丛书 的 背景 。 

创新 的 关键 在 于 人 才 培 养 。2015 年 11 月 底 , 教 育 部 下 发 了 《教育 部 关于 做 好 2016 
届 全 国 普通 高 等 学 校 毕业 生 就 业 创业 工作 的 通知 》, 通 知 规定 ,从 2016 年 起 所 有 高 校 都 要 
设置 创意 创新 创业 教育 课程 ,对 全 体 学 生 开 发 开设 创意 创新 创业 教育 (以 下 简称 三 创 教 
育 ) 必 修 课 和 选修 课 , 并 纳入 学 分 管理 。 对 有 创业 意愿 的 学 生 , 开 设 创业 指导 及 实 训 类 课 
程 ,对 已 经 开展 创业 实践 的 学 生 ,开展 企 业经 营 管理 类 培训 。 各 地 各 高 校 要 配 齐 配 强 创意 
创新 创业 教育 专职 教师 ,建立 以 课堂 教学 为 主 渠道 ,讲座 ,论坛 .培训 为 补充 的 多 形式 就 业 
指导 课程 体系 。 

强调 突破 和 实践 的 三 创 教育 正式 成 为 国家 创新 驱动 战略 及 人 才 培 养 计划 的 重要 组 成 
部 分 ,这 是 我 们 策划 这 套 丛书 的 契机 。 

中 关 村 汇聚 了 中 国 最 顶级 高 校 ,无 论 是 知识 .技术 .人 才 的 优质 及 密集 程度 ,还 是 知识 
性 企业 ,企业 专利 .创业 项 目 及 创业 服务 机 构 的 数量 及 质量 , 均 处 于 全 国 领先 的 地 位 ;可 以 
说 ,中 关 村 早已 积累 了 深厚 的 创新 文化 和 实践 经 验 。 而 北京 市 海淀 区 的 各 个 高 校 ,也 近 水 
Ë f; ,在 师资 和 课程 .学 业 评价 、 校 企 合作 等 多 个 维度 对 创意 创新 创业 教育 已 经 展开 了 有 
益 的 探索 和 尝试 。 这 是 这 套 丛 书 诞生 和 成 长 的 土壤 。 

于 是 ,我 们 立足 于 中 关 村 的 知识 资源 和 创业 实践 ,整合 多 方 资源 , 广 邀 优质 活跃 的 创 
业 导 师 、 三 创 组 织 . 贱 化 器 等 ,和 教育 出 版 机 构 ,成 立 了 “中 关 村 融 智 三 创 丛 书 工作 室 ”, 希 
望 通过 非 熏 利 机 构 的 形式 .助力 高 校 需 求 驱动 型 人 才 培 养 。 我 们 计划 创造 性 地 撰写 一 套 
通 识 性 的 三 创 丛 书 , 以 跨 学 科 的 主题 学 习 和 任务 驱动 形式 , 跨 专业 地 服务 于 三 创 起 航 教 
育 ,并 将 同步 策划 基于 互联 网 和 社交 媒体 的 一 体 化 新 型 教学 模式 及 资源 服务 .我们 诚挚 希 
望 创意 创新 创业 教育 能 在 中 国生 长 出 内 生 力 量 ,真正 形成 气候 ,实现 繁荣 ,实现 创新 驱动 。 

从 书 遵循 教学 与 创业 的 规律 进展 ,从 有 意 启发 学 生 创意 及 创新 思维 开始 ,引导 高 校 学 
生 思 考 为 什么 要 创意 创新 创业 “我 ”适合 什么 样 的 行业 及 发 展 道路 ,直至 给 出 具体 的 创业 


方法 论 及 实战 指导 。 因 此 ,丛书 将 首先 策划 和 编写 涉及 三 创 方面 的 用 于 实现 创意 支撑 创 
新 的 实用 前 沿 技术 类 和 技能 类 书籍 ,为 三 创 教育 夯实 * 硬 实力 ”。 在 由 浅 入 深 组 织 丛书 扎 
写 的 同时 ,考虑 到 各 个 领域 专业 化 门槛 较 高 ,市 场 需求 ,政策 导向 、 学 校 师 资 力度 不 一 ,我 
们 同时 还 兼顾 了 不 同行 业 的 特点 ,力争 覆盖 新 兴 行 业 及 国家 重点 发 展 的 领域 ,如 互联 网 、 
新 能 源 .汽车 等 。 

此 外 ,丛书 还 将 策划 另外 两 大 类 书籍 : 一 类 将 涵盖 创业 启程 相关 的 商业 模式 设计 、 产 
品 营销 、 团 队 创建 与 维持 、 投 融资 ,产品 运营 管理 ,法 规 遵从 、 知 识 产权 策略 、 沟 通 与 表达 等 
众多 技术 和 技能 之 外 的 方面 , 即 服 务 于 三 创 的 “ 软 实力 ”; 另 一 类 还 将 从 国际 国内 一 流 高 
校 、 创 客 空间 .孵化 器 及 知名 产业 园区 的 创意 、 创 新 .创业 及 投资 经 历 中 筛选 出 众多 生动 鲜 
活 的 经 典 案例 ,提供 综合 全 面 的 “好 案例 ”。 

本 套 从 书 具 有 开放 性 强 、 通 识 全 面 、 面 向 实践 ,行业 案例 新 鲜 丰 富 的 特点 。 正 如 它 所 
服务 的 主题 ,这 套 丛 书本 身 就 是 一 个 三 创 教育 的 探索 。 翻 开 顾问 名 单 会 发 现 , 顾 问 中 既 有 
德高望重 的 院士 ,也 有 富有 产业 园区 建设 经 验 的 官员 , 既 有 创业 成 功 的 企业 家 ,还 有 不 断 
探索 三 创 教育 的 学 者 一 一 我 们 希望 这 套 丛书 成 为 教育 家 、 研 究 者 .企业 家 、 投 资方 .创业 者 
等 多 方 合作 的 载体 ,营造 一 个 充满 活力 .良性 互动 .可 持续 发 展 的 教育 生态 系统 ,全 方位 地 
为 高 校 教师 ,学生 、 创 客 空间 .创新 创业 团队 提供 权威 性 、 高 品质 的 三 创 教育 服务 ;我 们 也 
希望 这 套 丛书 的 出 版 ,不 仅 能 够 填补 全 国 2800 余 所 高 等 院 校 所 面临 的 急迫 巨大 的 教材 缺 
口 , 更 能 为 高 校 创 新 创业 教育 体系 的 建立 和 完善 .创业 实践 指导 、 产 学 研 转 化 等 略 尽 绵薄 
edie 

最 后 ,感谢 海淀 园 管 委 会 和 清华 大 学 出 版 社 的 领导 们 ,他们 在 本 套 丛书 的 策划 撰写、 
编辑 出 版 的 过 程 中 提供 了 大 量 帮 助 。 由 于 创意 创新 创业 主题 宏大 ,瞬息 万 变 , 本 套 丛书 难 
免 存 在 朴 漏 不 足 , 有 待 今后 进一步 补充 和 完善 ,恳请 读者 批评 指正 。 如 有 读者 愿意 分 享 更 
精彩 的 理念 或 案例 ,也 欢迎 联系 。 


中 关 村 融 智 三 创 丛书 工作 室 
2016 年 9 月 


过 去 近 二 十 年 ,计算 机 科学 的 发 展 是 被 大 量 的 数据 推动 的 。 海 量 数据 提供 了 认识 
世界 的 新 视角 ,同时 也 带 来 了 分 析 和 理解 数据 的 巨大 挑战 。 如 何 从 数据 中 获得 知识 ,并 
利用 这 些 知识 帮助 设计 和 创造 更 满足 用 户 需 求 的 产品 ,希望 将 来 自 新 的 人 工 智 能 算法 。 
大 数据 的 核心 思想 体现 在 整个 工业 流程 中 从 决策 到 执行 数据 的 重要 性 ,其 重要 性 的 发 
挥 依赖 于 现代 计算 方法 一 一 机 器 学 习 。 机 器 学 习 可 以 利用 数据 做 很 多 决策 ,这 些 在 统 
计 意 义 上 都 是 好 的 决策 ,比如 要 不 要 把 这 首 歌 推 荐 给 那个 用 户 。 更 惊奇 的 是 当 数 据 足 
够 大 ,计算 能 力 足 够 强 , 机 器 也 可 以 学 得 比 人 更 好 。 清 华 大 学 范 森 和 李 超 的 新 著 (Pyhon 
机 器 学 习 及 实践 》 很 契合 实际 ,从 零 开始 介绍 简单 的 Python 语法 以 及 如 何 用 Python 语言 
来 构建 机 器 学 习 的 模型 。 每 一 个 章节 环 环 相 扣 , 配 合 代码 样 例 ,非常 适合 希望 了 解 机 器 
学 习 领 域 的 初学 者 ,甚至 没有 编程 基础 的 学 生 。 大 数据 要 求 机 器 学 习 应 该 更 普及 ,而 普 
及 的 途径 则 是 降低 相关 工具 的 使 用 难度 。 希 望 看 到 这 本 新 书 能 推动 机 器 学 习 的 普及 。 

一 今日 头条 实验 室 科 学 家 , 前 百度 美国 深度 学 习 实 验 室 少 帅 科学 家 FR 
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这 是 一 本 面向 机 器 学 习 实践 并 且 具 有 很 强 实用 性 的 好 书 。 每 个 章节 ,在 简要 介绍 

一 种 机 器 学 习 模 型 的 基础 上 ,结合 具体 的 例子 ,给 出 了 详细 的 Python 程序 的 编程 方法 ， 

有 利于 读者 对 机 器 学 习 方 法 细节 的 掌握 。 跟 随 本 书 , 读 者 将 一 步 步 跨 入 机 器 学 习 的 典 

堂 ,掌握 用 机 器 学 习 方 法 求解 实际 问题 的 技能 。 本 书 适合 于 想 使 用 机 器 学 习 方 法 求解 

实际 问题 的 博士 生 、 硕 士 生 、 高 年 级 本 科 生 ,以 及 在 企业 工作 的 工程 技术 人 员 阅 读 ,是 一 
本 快速 掌握 机 器 学 习 方 法 求解 实际 问题 的 入 门 读物 ,相信 读者 将 从 本 书 中 获 益 菲 浅 。 

一 清华 大 学 计算 机 系 教授 马 少 平 


= 


O 按照 推荐 人 的 姓名 拼音 排序 。 


机 器 学 习 是 专门 研究 计算 机 怎样 模拟 或 实现 人 类 的 学 习 行为 ,以 获取 新 的 知识 到 
技能 ,重新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 性 能 的 一 门 学 科 , 也 是 当前 科研 机 构 
及 企业 开展 应 用 研究 的 热点 之 一 。 随 着 "互联 网 + "概念 在 中 国 的 提出 ,科研 及 工程 技 
术 人 员 人 迫切 需要 将 机 器 学 习 技术 与 互联 网 技术 结合 起 来 ,把 互联 网 与 机 器 学 习 技术 应 
用 到 人 类 生活 中 。 但 机 器 学 习作 为 一 门 技术 ,具有 一 定 的 门槛 ,如 何 提供 一 本 通俗 易 
懂 、 快 速 入 门 的 技术 书籍 ,让 在 职 科技 人 员 及 在 校 学 生 能 够 尽快 熟悉 机 器 学 习 的 内 容 ， 
理解 机 器 学 习 的 含义 及 本 质 , 是 需要 尽快 解决 的 问题 。 

本 书 前 两 部 分 采用 通俗 的 语言 ,借助 于 现实 生活 的 例子 及 开源 库 包 ,介绍 了 机 器 学 
习 的 基本 概念 及 开源 库 包 的 安装 、 使 用 和 编程 调用 方法 ,通过 实例 展现 了 使 用 经 典 算法 
模型 的 分 析 过 程 及 思考 问题 的 方法 。 第 三 及 第 四 部 分 介绍 了 在 解决 实际 问题 时 如 何 通 
过 抽取 或 者 筛选 数据 特征 、 优 化 模型 配置 ,进一步 提升 经 典 模型 的 性 能 表现 ,从 而 达到 
能 够 将 机 器 学 习 的 经 典 算法 应 用 到 解决 现实 问题 的 目的 。 

尽管 目前 市 场 上 关于 机 器 学 习 的 书籍 很 多 ,但 很 少 具有 能 够 将 开发 语言 及 机 器 学 
习 理论 紧密 结合 ,利用 开源 技术 ,采用 类 似 * 实 训 " 方 式 进行 实践 教学 的 书籍 。 而 本 书 的 
作者 根据 自己 的 学 习 经 历 及 学 习 过 程 的 体会 ,把 自己 的 学 习 经 验 充 分 融入 书本 之 中 , 采 
用 由 浅 入 深 的 方法 ,结合 机 器 学 习 的 内 容 , 把 算法 学 习 的 每 一 步 都 给 读者 以 详细 展现 ， 
减少 了 学 生 的 学 习 难 度 , 加 快 了 学 生 学 习 的 进度 ,是 一 本 适合 在 校 学 生 及 工程 技术 人 员 
在 机 器 学 习 方面 快速 入 门 的 指导 书 。 


一 北京 邮电 大 学 软件 学 院 教授 , 教研 中 心 主任 ” 吴 国 仕 


ü 人 工 智 能 的 发 展 日 新 月 异 , 机 器 学 习 的 应 用 如 火 如 茶 。 EXTERN AREY 
别 需要 一 本 既 能 帮助 读者 理解 机 器 学 习 理 论 ,又 能 让 人 快速 上 手 实践 的 入 门 级 图 书 。 
这 是 一 本 侧重 于 Phon 机 器 学 习 具 体 实践 与 实战 的 入 门 级 好 书 。 不 同 于 多 数 专业 性 的 
书籍 ,该 书 拥有 更 低 的 阅读 门槛 。 即 便 不 是 计算 机 科学 技术 专业 出 身 的 读者 ,也 可 以 跟 
随 本 书 借助 基本 的 Python 编程 ,快速 上 手 最 新 并 且 最 有 效 的 机 器 学 习 模型 。 作 为 在 一 
线 从 事 机 器 学 习 理 论 与 技术 的 研发 人 员 ,该 书 的 作者 整合 了 当下 数据 科学 所 使 用 的 最 
为 流行 的 资源 ,如 Scikit-leam, Pandas, XGBoost 和 Tensorflow 等 ,一步 步 带领 读者 从 零 基 础 快 
速成 长 为 一 位 能 够 独立 分 析 数 据 并 且 参 与 机 器 学 习 竞 赛 的 兴趣 爱好 者 。 同 时 ,这 本 书 
的 作者 记录 下 大 量 在 机 器 学 习 实践 过 程 中 的 心得 体会 。 全 书 深入 浅 出 ,让 人 在 实践 中 
获得 知识 。 


一 香港 科技 大 学 计算 机 与 工程 系 讲座 教授 , REHE, IEEEAAA Fellow, 
国际 人 工 智能 协会 (UA, AAA ) 常务 理事 , 中 国人 工 智 能 协会 副 理 事 ， 
AMKO Gira AM 数 据 挖掘 委员 会 中 国 分 会 主席 杨 强 


机 器 学 习 的 每 一 次 进步 带动 了 很 多 学 科 的 大 力 发 展 。 这 是 一 本 由 在 读 博 士 生 扎 

写 , 侧 重 于 Mhm 机 器 学 习 具 体 实践 和 实战 的 入 门 级 教科 书 。 不 同 于 多 数 专业 书籍 ,该 

书 的 作者 从 初学 者 的 视角 ,一 步 步 带 领 读者 从 零 基础 快速 成 长 为 一 位 能 够 独立 进行 数 

据 分 析 并 且 人 参与 机 器 学 习 竞 赛 的 兴趣 爱好 者 。 全 书 深入 浅 出 ,特别 是 有 意 了 解 机 器 学 
习 , 又 不 想 被 复杂 的 数学 理论 困扰 的 读者 ,可 会 从 此 书 中 获 益 。 

一 苏州 大 学 计算 机 科学 与 技术 学 院 副 院 长 , 人 类 语言 技术 研究 所 所 长 ， 

特聘 教授 , 国家 杰出 青年 科学 基金 获得 者 XR 


不 同 于 多 数 专业 性 的 书籍 ,该 书 拥有 更 低 的 阅读 门槛 。 即 便 不 是 计算 机 科学 技术 
专业 出 身 的 读者 ,也 可 以 跟随 本 书 借助 Python 编程 快速 上 手 最 新 并 且 最 有 效 的 机 器 学 
习 模 型 。 如 果 说 机 器 学 习 会 主导 信息 产业 的 下 一 波浪 潮 ,那么 在 这 波浪 潮 来 临 之 前 ,我 
们 是 否 有 必要 对 其 一 宕 究竟 。 我 很 高 兴 看 到 有 这 样 一 本 零 基 础 实战 的 好 书 服务 广大 读 
者 ,为 普及 这 一 潮流 尽 绵 薄 之 力 。 就 像 过 去 几 十 年 间 我 们 不 懈 普及 计算 机 与 互联 网 一 
样 ,人 工 智 能 ,特别 是 机 器 学 习 的 核心 思想 也 应 该 走出 象牙 塔 ,拥抱 普罗 大 众 , 尽 可 能 让 
更 多 的 兴趣 爱好 者 参与 到 实践 当中 。 


m 一 清华 大 学 语音 和 语言 技术 中 心 主任 , 教授 BA 


p 


这 是 一 本 讲解 利用 Python 进行 机 器 学 习 实战 的 入 门 级 好 书 。 该 书 带领 刚 入 门 的 读 

者 ,从 零 开 始 , 一 步 步 学 习 数 据 分析 并 掌握 机 器 学 习 竞赛 技能 。 如 果 你 想 学 习 机 器 学 习 

方法 又 不 想 被 复杂 的 数学 理论 所 困扰 ,相信 你 会 从 本 书 中 获 益 。 该 书 适合 于 从 事 机 器 
学 习 研 究 和 应 用 的 在 校生 和 科研 工作 者 。 

一 微软 研究 院 首席 研究 员 , 自然 语言 处 理 资深 专家 周明 


致 广大 读者 : 

欢迎 各 位 购买 和 阅读 (Python 机 器 学 习 及 实践 )! 

本 书 的 编写 旨 在 帮助 大 量 对 机 器 学 习 和 数据 挖掘 应 用 感 兴趣 的 读者 朋友 ,整合 并 实 
践 时 下 最 流行 的 基于 Python 语言 的 程序 库 , 如 Scikit-learn、 Pandas, NLTK, gensim, 
XGBoost, Tensorflow 等 ;针对 现实 中 的 科研 问题 ,甚至 是 Kaggle 竞赛 (当前 世界 最 流行 
的 机 器 学 习 竞 赛 平 台中 的 分 析 任务 ,快速 搭建 有 效 的 机 器 学 习 系 统 。 

读者 在 阅读 了 几 个 章节 之 后 ,就 会 发 现 这 本 书 的 特别 之 处 。 作 者 力求 减少 读者 对 编 
程 技能 和 数学 知识 的 过 分 依赖 ,进而 降低 理解 本 书 与 实践 机 器 学 习 模型 的 门槛 ;并 试图 让 
更 多 的 兴趣 爱好 者 体会 到 使 用 经 典 模型 ,乃至 更 加 高 效 的 方法 解决 实际 问题 的 乐趣 。 同 
时 ,作者 对 书 中 每 一 处 的 关键 术语 都 提供 了 标准 的 英文 表述 ,也 方便 读者 快速 查阅 和 理解 
相关 的 英文 文献 。 

由 于 本 书 不 涉及 对 大 量 数学 模型 和 复杂 编程 知识 的 讲解 ,因此 受众 非常 广泛 。 这 其 
中 就 包括 : 在 互联 网 .IT 相关 领域 从 事 机 器 学 习 和 数据 挖掘 相关 任务 的 研发 人 员 ; 于 高 
校 就 读 的 博士 .硕士 研究 生 ,甚至 是 对 计算 机 编程 有 初步 了 解 的 本 科 生 ;以 及 对 机 器 学 习 
与 数据 挖掘 竞赛 感 兴趣 的 计算 机 业余 爱好 者 等 。 

感激 父母 长 久 以 来 对 我 的 关爱 。 也 非常 感谢 我 在 清华 大 学 和 纽约 大 学 的 导师 们 : 郑 
方 . 周 强 以 及 Ralph Grishman 教授 ,对 于 我 利用 业余 时 间 编 写本 书 的 理解 和 支持 。 特 别 
致谢 纽约 大 学 的 Emma Zhu 同学 ,在 我 写 书 期 间 所 给 予 计算 设备 的 帮助 。 最 后 ,感谢 中 
国 国家 留学 基金 委 为 本 人 在 美国 留学 期 间 所 提供 的 生活 资助 。 

最 后 ,衷心 地 希望 各 位 读者 朋友 能 够 从 本 书 获 益 , 同 时 这 也 是 对 我 最 大 的 鼓励 和 支 
持 。 全 书 代 码 下 载 地 址 为 : http://pan. baidu. com/s/1bGp15G。 对 于 书 中 的 错误 ,欢迎 
大 家 批评 指正 ,并 发 送 至 电邮 : fanmiao. cslt. thu@ gmail. com。 我 们 会 在 本 书 的 勘误 网 站 


BS C NEN 


https: //coding. net/u/fanmiao thu/p/Python ML and Kaggle/topic 上 记录 下 您 的 重 


要 贡献 。 
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本 章 介 绍 机 器 学 习 的 基本 理论 和 必要 的 编程 准备 。 首 先 , 借 由 美国 卡 内 基 梅 降 大 学 
(Carnegie Mellon University) 著 名 教授 Tom Mitchell 对 机 器 学 习 (Machine Learning) ff] 
经 典 定义 ,在 "1.1 机 器 学 习 综述 ” 节 中 进行 阐述 ,并 力求 通俗 易 慌 。 然 后 以 * 良 /恶性 乳腺 
瘤 肿瘤 预测 ”问题 为 实例 ,向 读者 朋友 更 加 细致 地 剖析 机 器 学 习 理论 中 的 关键 概念 。 而 
后 ,在 “1.2 Python 编程 库 ” 节 中 解释 之 所 以 选择 Python 搭建 机 器 学 习 平 台 的 原因 和 优 
势 ,同时 为 读者 朋友 推介 一 系列 用 于 快速 搭建 机 器 学 习 系 统 的 Python 编程 库 , 并 且 这 些 
编程 库 都 会 在 本 书 的 后 续 章节 中 详 加 讨论 。*1. 3 Python 环境 配置 ” 节 将 一 步 步 教会 大 
家 如 何在 最 常见 的 两 大 PC 操作 系统 平台 (Windows 和 Mac OS) 上 配置 所 需 的 编程 环 
境 , 包 括 如 何 架 设 Python 2. x 解释 器 环境 和 所 需 的 编程 库 等 。 最 后 ,利用 配置 好 的 编程 
环境 ,在 “1. 4 Python 编程 基础 ” 节 中 ,我 们 要 向 读者 朋友 提供 这 门 当 下 最 流行 的 计算 机 
编程 语言 的 编程 规范 和 基本 要 素 讲解 ,目的 在 于 方便 各 位 理解 和 进一步 实践 本 书后 续 的 
代码 。 


put 机 器 学 习 综述 


机 器 学 习 是 一 门 既 “古老 又“ 新兴?” 的 计算 机 科学 技术 ,隶属 于 人 工 智 能 (Artificial 
Intelligence) 研 究 与 应 用 的 一 个 分 支 。 

早 在 计算 机 发 明之 初 ,一 些 科 学 家 就 开始 构想 拥有 一 台 可 以 具备 人 类 智慧 的 机 器 。 
这 其 中 就 包括 计算 机 结构 理论 的 先驱 .人 工 智 能 之 父 艾 伦 。 麦 席 森 "图 灵 (Alan 
Mathison Turing)。 图 灵 在 1950 年 发 表 的 论文 《计算 机 器 与 智能 》(Computing 
Machinery and Intelligence) 中 中 提出 了 具有 开创 意义 的 “图 灵 测 试 "(Turing Test), 用 
来 判断 一 人 台 计 算 机 是 否 达到 具备 人 工 智 能 的 标准 。 我 们 将 有 关 描 述 “ 图 灵 测 试 "的 原文 节 
选 如 下 : 


The new form of the problem can be described in terms of a game which we 
call the“imitation game". It is played with three people, a man (A), a woman 
(B), and an interrogator (C) who may be of either sex. The interrogator stays 
ina room apart front the other two. The object of the game for the interrogator 
is to determine which of the other two is the man and which is the woman. 

We now ask the question. "What will happen when a machine takes the part 
of A in this game?" Will the interrogator decide wrongly as often when the 
game is played like this as he does when the game is played between a man and a 


woman? These questions replace our original, "Can machines think?” 


这 段 英文 原文 的 意思 概括 来 讲 就 是 :“ 如 果 通 过 问答 这 种 

方式 ,我 们 已 经 无 法 区 分 对 话 那 端 到 底 是 机 器 还 是 人 类 ,那么 (8) (S) 

就 可 以 说 这 样 的 机 器 已 经 具备 人 工 智能 。”, 如 图 1-1 所 示 。 尽 a Q 
B 


管 仍然 有 一 些 科学 家 并 不 完全 赞同 这 种 测试 标准 ;但 是 不 得 不 " 
承认 ,在 计算 机 刚刚 发 明 不 到 10 年 的 时 间 里 ,图 灵 能 够 具有 这 — — — — 
种 前 瞻 性 的 构想 ,甚至 为 我 们 提供 了 用 来 测试 人 工 智 能 的 蓝 
图 ,是 极为 难能可贵 的 。 Q 

而 机 器 学 习 ,作为 人 工 智能 的 分 支 ,从 20 世纪 50 年 代 开 


始 , 也 历经 了 儿 次 具有 标志 性 的 事件 ,这 其 中 包括 : 1959 年 , 美 ° 


国 的 前 IBM 5i T. K (Arthur Samuel) 开 发 了 一 个 西洋 棋 图 1-1 图 灵 测 斌 
程序 。 这 个 程序 可 以 在 与 人 类 棋 手 对 弈 的 过 程 中 ,不 断 改善 自 
己 的 棋艺 。 在 4 年 之 后 ,这 个 程序 战胜 了 设计 者 本 人 ;并 且 又 过 了 3 年 ,战胜 了 美国 一 位 
保持 8 年 常 胜 不 败 的 专业 棋 手 。1997 年 ,IBM 公司 的 深蓝 (Deep Blue) 超 级 计算 机 在 国 
际 象棋 比赛 中 力克 俄罗斯 (前 苏联 ) 专 业 大 师 卡 斯 帕 罗 夫 (Garry Kimovich Kasparov). Él 
此 引起 了 全 世界 从 业者 的 瞩目 。 同 样 是 IBM 公司 ,于 2011 年 ,她 的 沃 森 深度 问答 系统 
(Waston DeepQA) 在 美国 知名 的 百科 知识 问答 电视 节目 (Jeopardy) 中 一 举 击败 多 位 优秀 
的 人 类 选手 成 功 夺冠 ,又 使 得 我 们 朝 着 达成 “图 灵 测 试 ? 更 近 了 一 步 。 最 近 的 一 轮 浪潮 来 
自 于 深度 学 习 (Deep Learning) 的 兴起 ,也 就 是 在 笔者 正在 写 这 本 书 期 间 , 谷 歌 公 司 
DeepMind 研究 团队 正式 宣布 其 创造 和 撰写 的 机 器 学 习 程 序 AlphaGo? DI 4 : 1 的 总 
比分 击败 了 世界 顶级 围棋 选手 李 世 石 ,见证 了 人 工 智能 的 极 大 进步 。 

按照 机 器 学 习 理 论 先 驱 、 塞 级 尔 先生 的 说 法 ,他 并 没有 编写 具体 的 程序 告诉 西洋 棋 程 


(D https://en. wikipedia. org/ wiki/ AlphaGo 


序 如 何 行 棋 。 事 实 上 ,这 也 是 不 可 能 的 。 因 为 下 棋 策略 千变万化 ,我 们 无 法 通过 编写 完 
的 ,哪怕 是 固定 的 执行 规程 来 对 战 人 类 棋 手 。 从 塞 缪 尔 的 西洋 棋 程 序 ,到 谷歌 的 
AlphaGo, 我 们 可 以 总 结 出 机 器 学 习 系 统 具 备 如 下 特点 : 

。 许 多 机 器 学 习 系 统 所 解决 的 都 是 无 法 直接 使 用 固定 规则 或 者 流程 代码 完成 的 问 
题 ,通常 这 类 问题 对 人 类 而 言 却 很 简单 。 比 如 ,计算 机 和 手机 中 的 计算 器 程序 就 
不 属于 具备 智能 的 系统 ,因为 里 面 的 计算 方法 都 有 清楚 而 且 固 定 的 规程 ;但 是 ,如 
果 要 求 一 台 机 器 去 辨别 一 张 相片 中 都 有 哪些 人 或 者 物体 ,这 对 我 们 人 类 来 讲 非常 
容易 ,然而 机 器 却 非常 难 做 到 。 
所 谓 具 备 * 学 习 ” 能 力 的 程序 都 是 指 它 能 够 不 断 地 从 经 历 和 数据 中 吸取 经 验 教训 ， 
从 而 应 对 未 来 的 预测 任务 。 我 们 习惯 地 把 这 种 对 未 知 的 预测 能 力 叫做 泛 化 力 
(Generalization) 。 
机 器 学 习 系统 更 加 诱 人 的 地 方 在 于 , 它 具备 不 断 改善 自身 应 对 具体 任务 的 能 力 。 
我 们 习惯 称 这 种 完成 任务 的 能 力 为 性 能 (Performance)。 塞 纪 尔 的 西洋 棋 程 序 和 
谷歌 的 AlphaGo 都 是 典型 的 借助 过 去 对 弈 的 经 验 或 者 棋谱 ,不 断 提 高 自身 性 能 
的 机 器 学 习 系 统 。 

尽管 我 们 通过 西洋 棋 程 序 的 例子 总 结 了 一 些 机 器 学 习 系统 所 具备 的 特性 ,但 是 作者 
仍然 喜欢 引述 美国 卡 内 基 梅 隆 大 学 (Carnegie Mellon University) 机 器 学 习 研 究 领域 的 著 
名 教授 Tom Mitchell 的 经 典 定义 四 来 作为 阐述 机 器 学 习 理论 的 开篇 : 


A program can be said to learn from experience E with respect to some class 


of tasks T and performance measure P. if its performance at tasks in T. as 


measured by P, improves with experience E. 


真 的 是 令 人 称道 的 表述 ,而 且 带 有 英文 独特 的 韵脚 和 节律 。 我 们 尝试 翻译 一 下 : 如 
果 一 个 程序 在 使 用 既 有 的 经 验 (E) 执 行 某 类 任务 (T) 的 过 程 中 被 认定 为 是 具备 学 习 能 力 
的 ”, 那 么 它 一 定 需要 展现 出 : 利用 现 有 的 经 验 (E) ,不 断 改 善 其 完成 既定 任务 (T) 的 性 能 
(P) 的 特质 。 

下 面 ,我 们 会 对 其 中 的 三 个 关键 术语 : 任务 (Task ) , 2839 (Experience) ,性 能 (Performance) 
逐一 进行 剖析 ,并 将 一 个 “ 良 /恶性 乳腺 癌 肿 瘤 预测 ”的 经 典 机 器 学 习 问 题 引 作 开篇 实例 。 


1.1.1 任务 


机 器 学 习 的 任务 种 类 有 很 多 ,本 书 侧重 于 对 两 类 经 典 的 任务 进行 讲解 与 实践 : 监督 
学 习 (Supervised Learning) 和 无 监督 学 习 (Unsupervised Learning)。 其 中 ,监督 学 习 关 
注 对 事物 未 知 表现 的 预测 ,一 般 包 括 分 类 问题 (Classification) 和 回归 问题 (Regression); 
无 监督 学 习 则 倾向 于 对 事物 本 身 特性 的 分 析 , 常 用 的 技术 包括 数据 降 维 (Dimensionality 
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Reduction) MRX [a] Mi (Clustering) % , 

分 类 问题 ,顾名思义 , 便 是 对 其 所 在 的 类 别 进行 预测 。 类 别 既 是 离散 的 ,同时 也 是 预 
先知 道 数量 的 。 比 如 ,根据 一 个 人 的 身高 .体重 和 三 围 等 数据 ,预测 其 性 别 ; 性 别 不 仅 是 离 
散 的 ( 男 、 女 ), 同 时 也 是 预先 知晓 数量 的 。 或 者 ,根据 一 人 条 碗 尾 花 的 花瓣 、 花 葡 的 长 宽 等 数 
据 , 判 断 其 属于 哪个 药 尾 花 亚 种 ;高 尾 花 亚 种 的 种 类 与 数量 也 满足 离散 和 预先 知晓 这 两 项 
条 件 ,因此 也 是 一 个 分 类 预测 问题 ?。 
回归 同样 是 预测 问题 ,只 是 预测 的 目标 往往 是 连续 变量 。 比 如 ,根据 房屋 的 面积 、 地 
理 位 置 .建筑 年 代 等 进行 销售 价格 的 预测 ,销售 价格 就 是 一 个 连续 变量 。 

数据 降 维 是 对 事物 的 特性 进行 压缩 和 筛选 ,这 项 任务 相对 比较 抽象 。 如 果 我 们 没有 
特定 的 领域 知识 ,是 无 法 预先 确定 采样 哪些 数据 的 ;而 如 今 , 传 感 设备 的 采样 成 本 相对 较 
低 , 相 反 , 筛 选 有 效 信息 的 成 本 更 高 。 比 如 ,在 识别 图 像 中 人 脸 的 任务 中 ,我 们 可 以 直接 读 
取 到 图 像 的 像素 信息 。 若 是 直接 使 用 这 些 像素 信息 ,那么 数据 的 维度 会 非常 高 ,特别 是 在 
图 像 分 辨 率 越 来 越 高 的 今天 。 因 此 ,我 们 通常 会 利用 数据 降 维 的 技术 对 图 像 进行 降 维 , 保 
留 最 具有 区 分 度 的 像素 组 合 。 

聚 类 则 是 依赖 于 数据 的 相似 性 ,把 相似 的 数据 样本 划分 为 一 个 簇 。 不 同 于 分 类 问题 ， 
我 们 在 大 多 数 情况 下 不 会 预先 知道 秘 的 数量 和 每 个 簇 的 具体 含义 。 现 实生 活 中 ,大 型 电 
子 商 务 网 站 经 常 对 用 户 的 信息 和 购买 习惯 进行 聚 类 分 析 , 一 旦 找到 数量 不 非 并 且 背 景 相 
似 客户 群 , 便 可 以 针对 他 们 的 兴趣 投放 广告 和 促销 信息 。 

至 此 ,根据 上 面 的 描述 ,读者 朋友 便 可 以 确定 “ 良 / 恶 性 乳腺 癌 肿 瘤 预测 ”的 问题 属于 
二 分 类 任务 。 待 预测 的 类 别 分 别 是 良性 乳腺 瘤 肿瘤 和 恶性 乳腺 瘤 肿瘤 。 通常, 我们 使 用 
离散 的 整数 来 代表 类 别 。 如 表 1-1 所 示 ,“ 肿 瘤 类 型 ”一列 列 出 了 肿瘤 的 类 型 : 0 代表 良性 
肿瘤 ,1 代表 恶性 肿瘤 。 


表 11 威斯康星 大 学 乳腺 癌 肿 瘤 部 分 数据 吕 


肿块 厚度 | 细胞 尺寸 | 肿瘤 类 型 肿块 厚度 | 细胞 尺寸 | 肿瘤 类 型 
0 1 1 0 3 8 8 0 
1 4 4 0 4 1 1 0 
2 1 1 0 5 10 10 1 


O 拓展 小 贴 士 1: 这 里 同时 也 暴露 出 一 个 分 类 问题 的 缺陷 ,就 是 所 有 需要 预测 的 类 别 都 是 已 知 的 。 如 果 是 新 物种 ,我 们 便 无 法 根据 
现 有 经 验 进行 判断 。 常 见 的 做 法 是 对 数据 样本 的 分 类 表现 打分 ;对 于 没有 满足 赣 值 设 定 的 数据 样本 ,就 需要 对 其 做 进一步 分 析 , 甚 至 要 求 
人 工 参 与 鉴定 。 

Q 拓展 小 贴 士 2: 为 便于 展示 ,这 里 我 们 只 使 用 了 原 数据 的 一 小 部 分 。 完 整 的 数据 下 载 链接 为 : https://archive. ics. uci, edu/ml/ 


machine-learning-databases/breast-cancer-wisconsin/ breast-cancer-wisconsin. data 
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1.1.2 经 验 


我 们 习惯 性 地 把 数据 视 作 经 验 ; 事 实 上 ,只 有 那些 对 学 习 任务 有 用 的 特定 信息 才 会 被 
列 人 考虑 范围 。 而 我 们 通常 把 这 些 反映 数据 内 在 规律 的 信息 叫做 特征 (Feature) 。 比 如 ， 
在 前 面 提 到 的 人 脸 图 像 识别 任务 中 ,我 们 很 少 直 接 把 图 像 最 原始 的 像素 信息 作为 经 验 交 
给 学 习 系统 ;而 是 进一步 通过 降 维 ,甚至 一 些 更 为 复杂 的 数据 处 理 方法 得 到 更 加 有 助 于 人 
脸 识别 的 轮廓 特征 。 

对 于 监督 学 习 问 题 ,我 们 所 拥有 的 经 验 包括 特征 和 标记 /目标 (Label/Target) 两 个 部 
分 。 我 们 一 般 用 一 个 特征 向 量 (Feature Vector) 来 描述 一 个 数据 样本 ;标记 /目标 的 表现 
形式 则 取决 于 监督 学 习 的 种 类 。 

无 监督 学 习 问 题 自然 就 没有 标记 /目标 ,因此 也 无 法 从 事 预 测 任务 , 却 更 加 适合 对 数 
据 结 构 的 分 析 。 正 是 这 个 区 别 ,我 们 经 常 可 以 获得 大 量 的 无 监督 数据 ;而 监督 数据 的 标注 
因为 经 常 耗费 大 量 的 时 间 金钱 和 人 力 , 所 以 数据 量 相对 较 少 。 

另外 ,更 为 重要 的 是 ,除了 标记 /目标 的 表现 形式 存在 离散 .连续 变量 的 区 别 , 从 原始 
数据 到 特征 向 量 转化 的 过 程 中 也 会 遭遇 多 种 数据 类 型 : 28 Hl] AY (Categorical) 特征, 数值 
型 (Numerical) 特 征 , 甚 至 是 缺失 的 数据 (Missing Value) 等 。 实 际 操作 过 程 中 ,我 们 都 需 
要 把 这 些 特征 转化 为 具体 的 数值 参与 运算 ,这 里 暂 不 过 多 交代 , 当 我 们 在 后 面 的 实例 中 由 
到 时 会 具体 说 明 。 

在 * 良 /恶性 乳腺 癌 肿 瘤 预测 ”问题 中 ,如 表 1-1 所 示 , 我 们 所 使 用 的 经 验 有 两 个 维度 
的 特征 了 肿块 厚度 (Clump Thickness) 和 细胞 尺寸 (Cell Size) ; 除 此 之 外 ,还 有 对 应 肿瘤 
类 型 。 而 且 , 每 一 行 都 是 一 个 独立 的 样本 。 我 们 所 要 做 的 便 是 让 我 们 的 学 习 模 型 从 上 述 
的 经 验 中 习 得 如 何 判别 肿瘤 的 类 型 。 我 们 通常 把 这 种 既 有 特征 ,同时 也 带 有 目标 /标记 的 
数据 集 称 作 训 练 集 (Training Set) ,用 来 训练 我 们 的 学 习 系 统 。 这 里 我 们 拥有 524 条 独立 
的 用 于 训练 的 乳腺 癌 肿 瘤 样 本 数据 。 


1.1.3 性 能 


所 谓 性 能 , 便 是 评价 所 完成 任务 质量 的 指标 。 为 了 评价 学 习 模 型 完成 任务 的 质量 ,我 
们 需要 具备 相同 特征 的 数据 ,并 将 模型 的 预测 结果 同 相对 应 的 正确 答案 进行 比 对 。 我 们 


O ”拓展 小 贴 士 3: 也 许 读者 会 觉得 好 奇 ,这 里 的 肿块 厚度 和 细胞 尺寸 都 不 像 是 真正 意义 的 数值 ,更 像 是 级 别 的 划分 。 事 实 上 ,的 确 是 
这 样 。 在 大 多 数 情 况 下 ,我 们 都 无 法 使 用 最 原始 的 数据 进行 机 器 学 习 任务 ;更 多 的 需要 我 们 对 数据 进行 预 处 理 , 这 个 话题 后 面 会 谈 到 。 
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称 这 样 的 数据 集 为 测试 集 (Testing Set)?。 而 且 更 为 重要 的 是 ,我 们 需要 保证 ,出 现在 测 
试 集中 的 数据 样本 一 定 不 能 被 用 于 模型 训练 。 简 而 言 之 ,训练 集 与 测试 集 之 间 是 彼此 互 
斥 的 。 

对 待 预 测 性 质 的 问题 ,我 们 经 常 关注 预测 的 精度 。 具 体 来 讲 : 分 类 问题 ,我 们 要 根据 
预测 正确 类 别 的 百分比 来 评价 其 性 能 ,这 个 指标 通常 被 称 作 准确 性 (Accuracy) ;回归 问题 
则 无 法 使 用 类 似 的 指标 ,我 们 通常 会 衡量 预测 值 与 实际 值 之 间 的 偏差 大 小 2。 以 * 良 / 恶 
性 乳腺 癌 肿 瘤 预 测 ” 问 题 为 例 , 我 们 使 用 准确 性 作为 衡量 学 习 模型 /系统 性 能 的 指标 ,并 且 
用 于 测试 的 乳腺 癌 肿 瘤 样本 数据 有 175 £, 

前 面 已 经 提 到 过 ,作为 一 个 学 习 系 统 , 其 自身 需要 通过 经 验 , 不 断 表现 出 改善 性 能 的 
能 力 。 为 了 说 明 这 个 观点 ,我 们 即将 以 * 良 /恶性 乳腺 瘤 肿瘤 预测 ”问题 为 例 ,向 读者 展示 
这 个 学 习 过 程 。 

首先 ,我 们 观察 一 下 待 测 数据 集中 175 条 肿瘤 样本 在 二 维特 征 空间 的 分 布 情况 ,如 
图 1-2 所 示 。X 代表 恶性 肿瘤 ，O 代表 良性 肿瘤 。 
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图 1-2 良 /恶性 乳腺 癌 肿 瘤 测 试 集 数据 分 布 ( 见 彩 图 ) 


然后 我 们 随机 初始 化 一 个 二 类 分 类 器 .这 个 分 类 器 使 用 一 条 直线 来 划分 良 /恶性 肿 


O ”拓展 小 贴 士 4: 现实 应 用 中 ,我 们 无 法 获知 测试 集 的 正确 答案 。 因 为 那 正 是 需要 通过 学 习 系统 来 预测 结果 的 数据 。 因 此 ,我们 会 
充分 利用 已 知 目标 /标记 的 训练 集 , 并 且 后 面 的 章节 会 交代 具体 的 使 用 方法 。 
© ”拓展 小 贴 士 5: 性 能 评价 指标 因 学 习 任务 而 异 ,具体 的 评价 指标 和 计算 方法 都 会 在 对 应 的 章节 涉及 和 详细 介绍 。 


JH. ERR ASEM NA TAR: 直线 的 斜率 和 截 距 。 这 些 被 我 们 统一 称 为 模型 的 
参数 (Parameters) ,也 是 分 类 器 需要 通过 学 习 从 训练 数据 中 得 到 的 。 最 初 ,随机 初始 化 参 
数 的 分 类 器 的 性 能 表现 如 图 1-3 所 示 。 
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肿块 厚度 
图 1-3 随机 参数 下 的 二 类 分 类 器 (黄色 直线 )( 见 彩 图 ) 


随 着 我 们 使 用 一 定量 的 训练 样本 ,分 类 器 所 表现 的 性 能 有 了 大 幅度 的 提升 ,如 图 1-4 
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图 1-4 使 用 10 条 训练 样本 得 到 的 二 类 分 类 器 (绿色 直线 )( 见 彩 图 ) 


与 图 1-5 所 示 , 当 学 习 10 条 训练 样本 时 ,分 类 器 的 性 能 改进 一 些 , 测 试 集 上 的 分 类 准确 性 
H 86. 9% ;继续 学 习 所 有 训练 样本 之 后 ,分 类 器 的 性 能 进一步 提升 ,在 测试 集 上 的 分 类 准 
确 性 最 终 达到 93.7%. 
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肿块 厚度 
图 1-5 使 用 所 有 训练 样本 得 到 的 二 类 分 类 器 ( 蓝 色 直线 )( 见 彩 图 ) 


综 上 ,我 们 通过 一 个 现实 生活 中 的 例子 ,向 广大 读者 详细 阐释 了 一 个 学 习 系 统 的 关键 
组 成 部 分 。 在 后 续 的 章节 中 ,还 会 有 更 多 有 趣 而 实用 的 项 目 等 待 着 大 家 。 


E INI 


这 一 节 , 我 们 需要 向 读者 解释 为 什么 要 使 用 Python 从 事 机 器 学 习 任务 ,并 且 为 大 家 
推介 几 种 最 为 常用 ,同时 也 是 功能 强大 的 编程 库 。 本 书 将 围绕 这 些 编程 库 ,教会 大 家 如 何 
快速 搭建 机 器 学 习 的 系统 ,甚至 用 于 竞赛 实战 。 


1.2.1 为 什么 使 用 Python 


有 兴趣 的 读者 如 果 翻 阅 英 文字 典 查找 Python 的 含义 ,十 有 八 九 会 得 到 “蟒蛇 "这 个 解 
Fé. SES: E ,就 Python 的 命名 和 起 源 曾 有 一 段 逸闻 。 首 先 , 这 门 编程 语言 框架 设计 和 解 
释 器 的 开发 , 均 是 由 一 名 荷兰 籍 的 计算 机 从 业者 Guido von Rossum 在 1989 年 的 圣诞 候 
期 开始 的 。 而 Python 这 个 名 字 来 源 于 Guido 本 人 非常 喜爱 的 一 部 在 20 世纪 60 一 70 年 
代 BBC Hichi Z ARARE Monty Python s Flying Circus. 


稍微 了 解 一 点 计算 机 发 展 历史 的 读者 ,一 定 听 说 过 汇编 .甚至 机 器 语言 。 那 个 年 代 ， 
程序 员 的 工作 生活 远 没 有 像 现 在 这 样 滋润 : 在 加 州 硅谷 一 个 阳光 明媚 的 工作 日 ,现今 的 
程序 员 可 以 选择 不 去 自己 所 在 的 公司 ,而 是 坐 在 一 间 和 舒适 的 咖啡 厅 里 ,打开 自己 的 苹果 笔 
记 本 ,远程 连接 到 隶属 于 自己 的 一 台 性 能 优越 的 计算 服务 器 ,开始 一 天 的 工作 ;相反 , 那 时 
候 的 程序 员 几 乎 需要 整 天 对 着 一 台 释然 作 响 的 庞然大物 ,迫使 自己 像 它 一 样 思考 , 写 出 更 
加 贴近 机 器 指令 的 程序 ,甚至 还 要 花费 更 大 的 精力 ,根据 有 限 的 计算 资源 做 各 种 各 样 的 程 
序 优化 ,最 大 限度 地 榨取 计算 机 的 性 能 。 

Python 的 作者 Guido 苦恼 于 这 样 的 工作 状态 并 希望 改变 。 因 此 他 决心 设计 一 种 兼 
顾 可 读 性 和 易 用 性 的 编程 语言 。 因 此 ,Python 将 许多 高 级 编程 语言 的 优点 集 于 一 身 : 
仅 可 以 像 脚本 语言 (Script Languages) 一 样 ,用 非常 精练 易 读 的 寥寥 几 行 代码 来 完成 一 
需要 使 用 C 语言 通过 复杂 编码 才能 完成 的 程序 任务 ;而 且 还 具备 面向 对 象 编程 语言 
(Object-oriented Programming Languages) 的 各 式 各 样 的 强大 功能 。 不 同 于 C 语言 等 编 
译 型 语言 (Compiled Languages) ,Python 作为 一 门 解释 型 语言 (Interpreted Languages) , 
也 非常 便于 调试 代码 。 同 时 ,Python 免费 使 用 和 跨 平台 执行 的 特性 ,也 为 这 门 编程 语言 
带 来 了 越 来 越 多 开源 库 的 贡献 者 和 使 用 者 。 许 多 著名 的 公司 ,如 Google, Dropbox 等 ,其 
至 将 Python 纳入 其 内 部 最 为 主要 的 开发 语言 。 因 此 ,如 果 是 初 涉 计算 机 编程 的 读者 ,学 
习 Python 语言 无 疑 明智 之 选 :而 本 书 借 由 Python 编程 语言 来 深入 介绍 机 器 学 习 话 题 ， 
也 显得 更 为 高 效 与 易 读 。 
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1.2.2 Python 机 器 学 习 的 优势 


Python 程序 语言 与 机 器 学 习 实 践 可 以 称 得 上 是 “ 珠 联 壁 合 "。 因 为 使 用 Python 编程 
技巧 ,接触 甚至 掌握 机 器 学 习 的 经 典 算法 至 少 有 以 下 4 项 优势 。 

。 方便 调试 的 解释 型 语言 : Python 是 一 门 解释 型 编程 语言 .与 Java 类 似 , 源 代码 都 
要 通过 一 个 解释 器 (Interpreter) ,转换 为 独特 的 字 节 码 。 这 个 过 程 不 需要 保证 全 
部 代码 一 次 性 通过 编译 ;相反 ,Python 解释 器 逐 行 处 理 这 些 代 码 。 因 此 方便 了 调 
试 过 程 , 也 特别 适合 于 使 用 不 同 机 器 学 习 模 型 进行 增 量 式 开发 。 
跨 平台 执行 作业 : 上 面 提 到 Python 的 源 代码 都 会 先 解释 成 独特 的 字 节 码 , 然 后 
才 会 被 运行 。 从 另 一 个 角度 讲 , 只 要 一 个 平台 安装 有 用 于 运行 这 些 字 节 码 的 虚拟 
机 ,那么 Python 便 可 以 执行 跨 平 台 作 业 。 这 点 不 同 于 C++ 这 类 编译 型 语言 ,但 
是 却 和 Java 虚拟 机 很 相似 。 由 于 机 器 学 习 任 务 广泛 地 执行 在 多 种 平台 ,因此 以 
Python 这 类 解释 型 语言 作为 编码 媒介 也 不 失 为 一 种 好 的 选择 。 
广泛 的 应 用 编程 接口 : 除了 那些 被 用 于 编程 人 员 自行 开 发 所 使 用 的 第 三 方程 序 
库 以 外 ,业界 许多 著名 的 公司 都 拥有 用 于 科研 和 商业 的 云 平 台 , 如 亚马逊 的 AWS 


(Amazon Web Services) ,谷歌 的 Prediction API 等 。 这 些 平台 同时 也 面向 互联 
网 用 户 提供 机 器 学 习 功 能 的 Python 应 用 编程 接口 (Application Programming 
Interface) 。 许 多 平台 的 机 器 学 习 功 能 模块 不 需要 用 户 来 编写 ,只 需要 用 户 像 拱 
建 积 木 一 样 , 通 过 Python 语言 并 且 遵 照 API 的 编写 协议 与 规则 ,把 各 个 模块 串 
接 起 来 即 可 。 

丰富 完备 的 开源 工具 包 : 软件 工程 中 有 一 个 非常 重要 的 概念 , 便 是 代码 与 程序 的 
重用 性 。 为 了 构建 功能 强大 的 机 器 学 习 系统 ,如 果 没 有 特殊 的 开发 需求 ,通常 情 
况 下 ,我 们 都 不 会 从 零 开 始 编程 。 比 如 ,学 习 算法 中 经 常会 涉及 的 向 量 计算 ;如 果 
Python 中 没有 直接 提供 用 于 向 量 计算 的 工具 ,我 们 还 需要 自己 花费 时 间 编 写 这 
样 的 基础 功能 吗 ? 答案 是 否定 的 。Python 自身 免费 开源 的 特性 使 得 大 量 专业 、 
甚至 天 才 型 的 编程 人 员 , 参 与 到 Python 第 三 方 开 源 工 具 包 (程序 库 ) 的 构建 中 。 
更 为 可 喜 的 是 ,大 多 数 的 工具 包 ( 程 序 库 ) 都 允许 个 人 免费 使 用 ,乃至 商用 。 这 其 
中 就 包括 本 书 主要 使 用 的 多 个 用 于 机 器 学 习 的 第 三 方程 序 库 ,如 便于 向 量 、 和 矩阵 
和 复杂 科学 计算 的 NumPy 与 SciPy; 仿 MATLAB 样式 绘图 的 Matplotlib; 包 含 
大 量 经 典 机 器 学 习 模型 的 Scikit-learn; 对 数据 进行 快捷 分 析 和 处 理 的 Pandas; LA 
及 集成 了 上 述 所 有 第 三 方程 序 库 的 综合 实践 平台 Anaconda, 


1.2.3 NumPy & SciPy 


NumPy9 是 全 书 最 为 基础 的 Python 编程 库 。NumPy 除了 提供 一 些 高 级 的 数学 运算 


机 制 以 外 ,还 具备 非常 高 效 的 向 量 和 矩阵 运算 功能 。 这 些 功 能 对 于 机 器 学 习 的 计算 任务 
是 尤为 重要 的 。 因 为 不 论 是 数据 的 特征 表示 也 好 ,还 是 参数 的 批量 计算 也 好 ,都 离 不 开 更 
加 方便 快捷 的 矩阵 和 向 量 计算 。 而 NumPy 更 为 突出 的 是 它 内 部 独到 的 设计 ,使 得 处 理 
这 些 矩 阵 和 向 量 计算 比 起 一 般 程序 员 自 行 编写 ,甚至 是 Python 自 带 程序 库 的 运行 效率 都 
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1 许多 。 
SciPy@ 则 是 在 NumPy 的 基础 上 构建 的 更 为 强大 ,应 用 领域 也 更 为 广泛 的 科学 计算 
正 是 出 于 这 个 原因 ,SciPy 需要 依赖 NumPy 的 支持 进行 安装 和 运行 。 对 这 两 个 编程 


库 感 兴趣 的 读者 ,可 以 参考 下 面 这 个 在 线 教程 详细 学 习 它们 的 用 法 : https://docs. 


scipy. org/doc/numpy-dev/user/quickstart. html, 


© http://www. numpy. org/ 
© http://www. scipy. org/ 


1.2.4 Matplotlib 


众所周知 ,MATLAB 作为 一 款 功 能 强劲 , 集 数据 分 析 和 展现 于 一 体 的 商业 软件 , 受 
到 无 数 自然 科学 工作 者 的 青睐 。 然 而 在 多 数 情况 下 ,只 有 高 等 学 校 , 科 研 机 构 和 大 型 公司 
才能 负担 得 起 其 昂贵 的 正版 许可 证 。 就 普通 个 人 对 数据 展现 方面 的 需求 而 言 ,我 们 更 加 
希望 有 类 似 MATLAB 的 绘图 功能 ,但 是 允许 免费 使 用 的 Python 程序 库 。Matplotlib?， 
作为 一 款 Python 编程 环境 下 免费 使 用 的 绘图 工具 包 , 因 为 其 工作 方式 和 绘图 命令 几乎 和 
MATLAB 类 似 , 所 以 立刻 便 成 了 本 书 的 首选 。 欲 了 解 详情 的 读者 可 以 查阅 Matplotlib 
的 在 线 文档 http://matplotlib. org/contents. html, 


1.2.5 Scikit-learn 


Scikit-learn® 是 本 书 所 使 用 的 核心 程序 库 中 ,依托 于 上 述 几 种 工具 包 , 封 装 了 大 量 经 
典 以 及 最 新 的 机 器 学 习 模 型 。 该 项 目 最 早 由 David Cournapeau 在 2007 年 Google 夏季 
代码 节 中 提出 并 启动 。 后 来 作为 Matthieu Brucher 博士 工作 的 一 部 分 得 以 延续 和 完善 。 
现在 已 经 是 相对 成 熟 的 机 器 学 习 开源 项 目 。 近 十 年 来 ,有 超过 20 位 计算 机 专家 参与 其 代 
码 的 更 新 和 维护 工作 。 作 为 一 款 用 于 机 器 学 习 和 实践 的 Python 第 三 方 开源 程序 库 ， 
Scikit-learn 无 疑 是 成 功 的 。 无 论 是 其 出 色 的 接口 设计 ,还 是 高 效 的 学 习 能 力 , 都 使 它 成 
为 本 书 介绍 的 核心 工具 包 。 另 外 Scikit-learn 还 提供 了 详细 的 英文 版 使 用 文档 http:// 
scikit-learn. org/stable/user guide. html, 也 是 值得 参考 的 辅助 学 习 材 料 。 


1.2.6 Pandas 


如 果 读 者 有 机 会 采访 在 一 线 从 事 机 器 学 习 应 用 的 研发 人 员 , 问 他 们 究竟 在 机 器 学 习 
的 哪个 环节 最 耗费 时 间 , 恺 怕 多 数 人 会 很 无 奈 地 回答 您 :“ 数 据 预 处 理 。 "事实 上 ,多 数 在 
业界 的 研发 团队 往往 不 会 投入 太 多 精力 从 事 全 新 机 器 学 习 模 型 的 研究 ;而 是 针对 具体 的 
项 目 和 特定 的 数据 ,使 用 现 有 的 经 典 模型 进行 分 析 。 这 样 一 来 ,时 间 多 数 被 花费 在 处 理 数 
据 , 甚 至 是 数据 清洗 的 工作 上 ,特别 是 在 数据 还 相对 原始 的 条 件 下 。Pandas@ 是 一 款 针对 
于 数据 处 理 和 分 析 的 Python 工具 包 , 有 具体 文档 见 http://pandas. pydata. org/pandas- 
docs/stable/ 。 其 中 实现 了 大 量 便 于 数据 读 写 、 清 洗 、 填 充 以 及 分 析 的 功能 。 这 样 就 帮助 


© http://matplotlib. org/ 
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研发 人 员 节 省 了 大 量 用 于 数据 预 处 理工 作 的 代码 ,同时 也 使 得 他 们 有 更 多 的 精力 专注 于 
有 具体 的 机 器 学 习 任务 。 


1.2.7 Anaconda 


读 到 这 里 ,也 许 会 觉得 前 面 介 绍 的 许多 工具 包 相互 之 间或 多 或 少 都 存在 着 一 些 依赖 
关系 ,一 时 间 也 很 难 弄 明白 ;而 且 实际 操作 也 可 能 比较 复杂 。 是 否 有 一 个 集成 平台 ,一 旦 
安装 便 不 需要 考虑 这 些 琐碎 的 事情 了 呢 ? 答案 是 : 既然 有 需求 ,那么 一 定 有 ! 对 于 想 快 
速 上 手 的 初学 者 而 言 ,笔者 推荐 使 用 Anaconda? 平台 ,只 要 下 载 并 安装 对 应 操作 系统 以 
及 Python 解释 器 版 本 的 程序 包 , 便 可 以 一 次 性 获得 300 多 种 用 于 科学 和 工程 计算 相关 任 
务 的 Python 编程 库 的 支持 ;本 书 所 涉及 的 编程 库 仅仅 是 其 冰山 一 角 。 感 兴趣 的 读者 可 以 
深入 阅读 其 文档 : https://www. continuum. io/documentation, 


n2 1.3 ”Python 环境 配置 


从 现在 开始 ,请 读者 准备 一 台 以 Windows 或 者 Mac OS 作为 操作 系统 的 个 人 计算 
机 。 我 们 将 从 零 开 始 , 向 读者 分 别 介绍 如 何在 这 两 个 主流 的 操作 系统 平台 上 ,配置 并 且 运 
行 本 书 全 部 代码 所 需 的 Python 解释 器 、 编 程 库 以 及 开发 环境 。 
这 里 需要 提前 向 读者 声明 : Python 编程 语言 有 两 个 版 本 ,分 别 是 Python 2. x 与 
Python 3. x。 因 为 一 些 * 历 史 遗 留 "@ 问 题 ,使 得 这 两 个 版 本 不 仅 无 法 相互 兼容 ,而 且 就 连 
- 些 编程 语法 都 不 一 致 。 所 以 ,我 们 建议 读者 在 学 习 Python 的 时 候 ,姑且 把 它们 视 作 两 
种 不 同 的 编程 语言 。 本 书 中 所 有 编写 的 示例 代码 都 可 以 流畅 运行 于 Mac OS 的 Python 
2.7 平台 。 


1.3.1 Windows 系统 环境 


由 于 Windows 操作 系统 版 本 的 不 同 可 能 会 影响 配置 的 流程 ,因此 笔者 这 里 先 交代 一 
下 本 书 所 使 用 的 Windows 版 本 环境 Windows 7 Ultimate 64 位 Service Pack 1, 以 便于 
读者 参考 。 


© https://www. continuum. io/ 
© 拓展 小 贴 士 6: 具体 的 历史 原因 很 复杂 , 感 兴趣 的 读者 可 以 阅读 Python 核心 开发 团队 成 员 Brett Cannon 发 表 的 博客 http:// 


www. snarky, ca/why-python-3-exists 
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1.3.1.1 Python 2.x 解释 器 安装 与 配置 

我 们 已 经 说 过 ,Python 编程 语言 有 两 个 版 本 : Python 2. x 与 Python 3. x。 这 两 个 版 
本 互 不 兼容 ,许多 初学 者 因为 忽略 了 这 一 点 而 无 法 执行 自己 的 代码 。 因 此 ,这 里 再 次 提醒 
本 书 使 用 Python 2. x 的 版 本 。 大 家 可 L Python 的 官网 https://www. python. org 
downloads/ 自 行 下 载 ,如 图 1-6 所 示 。 官 方 网 站 也 对 版 本 做 了 区 分 ,并 且 截 至 本 书 完稿 的 
时 候 ,Python 2. x 更 新 到 2.7. 11 版 本 。 


e python” 3 IL 


About Downloads Documentation Community Success Stories. News Events 


Download the latest version for wins iN. 


Wondering to use? Here's mor 


Looking for Python with a different OS? Python for Windows, 
Mac 


Hi 1-6 Python 解释 器 环境 之 Windows 版 本 下 载 官网 


但 是 考虑 到 软件 的 稳定 性 ,作者 建议 选择 前 一 个 版 本 。 同 时 ,建议 使 用 64 位 操作 系 
统 的 读者 从 链接 https://www. python. org/downloads/release/python-2710/ 选 择 下 载 
Windows x86-64 MSI installer (32 位 操作 系统 的 用 户 只 能 下 载 Windows x86 MSI 
installer, 但 是 其 后 的 安装 步骤 与 64 fiz — BO). 64 位 Python 2. 7. 10 的 安装 包 为 python- 
2. 7. 10. amd64. msi, 双 击 运行 ,按照 默认 配置 ,一 路 单 击 next 按钮 即 可 完成 安装 。 

如 果 安 装 成 功 ,使 用 Windows 命令 行 输入 python, 便 可 以 看 到 如 图 1-7 所 示 的 样 例 ， 
并 伴 有 Python 特有 的 命令 提示 符 >>> 

如 果 在 Windows 命令 行 中 输入 python, 系统 提示 找 不 到 这 个 外 部 命令 。 那 么 读者 
在 保证 之 前 所 有 的 安装 都 正常 完成 的 前 提 下 ,可 以 右 击 * 我 的 电脑 ”, 在 弹出 的 快捷 菜单 中 
单 击 “ 属 性 ”选项 ,选择 左边 栏 的 “高 级 系统 设置 "。 如 图 1-8 所 示 ,选择 "环境 变量 ”, 并 且 
在 下 部 “系统 变量 ”中 编辑 Path, 加 入 Python 的 安装 路 径 即 可 (默认 一 般 是 C:\ 
Python27). 
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图 1-7 Python 解释 器 Windows 运行 界面 ( 见 彩 图 ) 
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图 1-8 Windows 操作 系统 下 Python 环境 变量 配置 ( 见 彩 图 ) 


1.3.1.2 Python 2.x 编程 库 安装 与 配置 
接着 就 需要 配置 跟 机 器 


I 有 关 的 一 系列 Python 的 扩展 包 了 。 不 过 在 此 之 前 ,需要 


安装 pip。 请 大 家 到 https://bootstrap. pypa. io/get-pip. py F && get-pip. py 文件 ,然后 
在 该 文件 所 在 目录 下 打开 Windows 的 命令 (cmd. exe) 窗 口 ,并 且 在 提示 行 中 运 


get-pip. py. 


美国 加 州 大 学 尔 湾 分 校 的 一 个 实验 室 网 站 提供 了 大 量 用 于 Windows 平台 下 的 
Python 第 三 方 扩展 包 下 载 http; / /www. lfd. uci, edu/— gohlke/pythonlibs/ ,特别 实用 。 
大 家 到 里 面 去 下 载 以 cp27-none-win_amd64. whl 结尾 的 一 系列 扩展 包 , 按 照 依赖 顺序 分 
别 为 Numpy 十 MKL SciPy 和 Scikit-learn, 并 依次 在 下 载 文件 同 目录 的 cmd. exe 中 键入 
这 样 的 命令 (以 scikit_learn-0. 17-cp27-none-win_amd64. whl 为 例 ) : 

python -m pip install -U scikit_learn-0. 17-cp27-none-win_amd64. whl 


安装 完 上 述 三 种 扩展 包 之 后 ,各 位 就 可 以 通过 
>>> import mmpy, scipy, skleam 


测试 并 且 使 用 它们 。 此 外 ,如 果 想 跟 本 书 示 例 一 样 使 用 Python 作 图 ,那么 就 需要 
Matplotlib, Matplotlib 同样 也 需要 一 系列 扩展 包 的 支持 ,所 有 必 备 的 库 numpy、 
dateutil、pytz、pyparsing six 等 都 能 从 刚才 推荐 的 下 载 网 站 上 检索 到 。 


1.8.1.3 Python 2.x 开发 环境 推荐 


我 们 在 准备 编写 和 运行 Python 源 代码 之 前 ,除了 可 以 在 Windows 命令 行 中 通过 输 

A Python 调用 最 为 基本 的 解释 器 环境 外 ,还 可 以 使 用 很 多 功能 更 加 丰富 和 强大 的 集成 开 

发 环境 (Integrated Development Environment,IDE)。 这 些 免费 的 甚至 商用 的 独立 软件 

主要 是 为 了 服务 于 专业 的 编程 人 员 ,协作 开发 更 为 大 型 的 应 用 程序 。 这 里 也 推荐 读者 在 
Windows 操作 系统 上 使 用 。 比 较 常用 的 软件 包括 以 下 几 种 。 

* IDLE(Integrated Development and Learning Environment) ; 这 款 软件 属于 免费 并 

且 轻 量 级 的 交互 式 解释 环境 ,安装 Python 解释 器 环境 就 会 附带 。IDLE 会 逐条 运 

行 代码 行 ,并 且 编程 人 员 会 当即 得 知 运行 状态 和 结果 ,如 图 1-9 所 示 。 由 于 其 交 

互 式 的 运行 模式 ,加 上 免费 轻 量 级 的 软件 特点 , 深 受 从 事 编程 教育 工作 者 的 喜爱 。 


13 Python 27.10 Shell I 
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Python 2.7.10 (default, May 23 2015, 09:44:00) [MSC v.1500 64 bit (AMD64)] on wi ^ 
n32 


Type "copyright", "credits" or "license()" for more information. 
>>> print 'Hello Everyone!" 

Hello Everyone! 

>>> 


图 1-9 Windows 操作 系统 下 Python IDLE 运行 界面 ( 见 彩 图 ) 


* IPython: 这 是 一 款 笔记 本 风格 的 ,并且 基 于 浏览 器 的 解释 器 环境 ,如 图 1-10 所 
示 。 一 般 在 安装 Anaconda 的 同时 就 会 附带 。 对 于 想 快速 搭建 运行 环境 并 且 实 践 
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本 书 代码 的 读者 而 言 ,作者 最 为 推荐 使 用 这 款 集成 开发 环境 。 原 因 在 于 Anaconda 
的 一 键 式 安装 (Windows 版 本 的 Anaconda 的 下 载 地 址 为 https://www. 
continuum, io/downloads 并 _windows) 可 以 帮助 使 用 者 一 次 性 配置 好 所 有 本 书 需 
要 的 工具 包 以 及 IPython 解释 器 环境 。 同 时 IPython 还 提供 了 非常 方便 的 互联 
网 发 布 功能 ,可 以 随时 随地 利用 互联 网 维护 .更 新 以 及 交流 Python 源 代码 。 
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图 1-10 IPython 解释 器 界面 ( 见 彩 图 ) 


* PyCharm: 这 是 一 款 功能 强劲 的 商业 软件 ( 见 图 1-11), 同 时 也 提供 免费 的 社区 版 
本 (下 载 地址 为 https://www. jetbrains. com/pycharm/download/ # section = 
windows) 。 对 于 已 经 熟悉 Python 编程 的 专业 人 士 而 言 , 使 用 这 款 软件 无 疑 会 如 


€ PyCharm 


tion 4.5 


图 1-11 Windows 平台 下 Pycharm 软件 开启 界面 


RRR., HEA E RE CHE HE. BET Kati A AE Python 编程 关键 词 、 
函数 以 及 工具 包 名 称 等 的 麻烦 。 


1.3.2 Mac OS 系统 环境 


同样 ,我 们 对 于 所 使 用 的 Mac OS 的 版 本 也 交代 一 下 : OS X El Captian Version 
10.11.2。 同 时 ,如 果 大 家 在 操作 系统 配置 方面 有 任何 疑问 ,也 欢迎 致 信 作 者 的 电子 邮箱 。 


1.3.2.1 Python 2.x 解释 器 安装 与 配置 


大 多 数 较 新 的 Mac OS 都 默认 安装 Python 2. x 的 解释 器 环境 ,在 终端 (Terminal) 上 
输入 Python 得 到 如 图 1-12 所 示 的 样 例 。 
1172-16-239-4:Miao Fan jieleizhu$ python 
Python 2.7.19 (default, Oct 23 2015, 18:05:06) 


[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 


图 1-12 使 用 Mac OS 终端 调用 默认 Python 解释 器 样 例 


如 果 Mac OS 没有 安装 Python 2. x, 请 前 往 这 个 链接 https://www. python. org/ 
downloads/release/python-2710/ ,并 且 根 据 Mac OS 的 版 本 选择 下 载 。 


1.3.2.2 Python 2.x 编程 库 安装 与 配置 


与 Windows 不 同 ,Mac OS 的 许多 程序 安装 在 终端 上 通过 命令 完成 更 为 方便 。 作 者 
在 这 里 推荐 Mac OS 平台 的 使 用 者 安装 pip。 首 先 打开 Mac OS 的 终端 (Terminal) ,确认 
自己 Mac OS 已 经 安装 了 Python 的 解释 器 环境 ;然后 ,在 命令 提示 符 ($) 下 输入 curl 
https://bootstrap. pypa. io/get-pip. py 二 get-pip. py 下 载 到 本 地 ; 接 下 来 ,在 命令 提示 符 
下 继续 输入 sudo python get-pip. py 安装 pip, 这 时 候 终端 会 提示 输入 系统 登录 密码 ,也 
就 是 开机 密码 ;输入 成 功 之 后 ,pip 就 安装 好 了 。 我 们 同样 在 图 1-13 为 大 家 提供 了 示范 性 
的 安装 步骤 。 

对 于 包括 NumPy.SciPy,Scikit-learn 以 及 Matplotlib 在 内 的 任何 相关 的 Python T. 
具 包 ,在 安装 完 pip 之 后 ,只 需要 在 终端 的 命令 提示 符 ($$) 后 ,通过 以 下 命令 即 可 完成 : 


sub pip install 工具 包 名 称 
比如 安装 Scikit-learn, 则 输入 sudo pip install sklearn 即 可 。 
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72- n jie py’ 
[Python 2.7.10 (default, Oct 23 2015 
(GCC 4.2.1 Compatible Apple LLVM 
(Type "help", "copyright", “credit: 
»» exit() 


@.59.5)] on darwin 
more information. 
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WARNING: Improper use of the sudo command could lead to data loss 
or the deletion of important system files. Please double-check your 
[typing when using sudo. Type "man sudo" for more information. 


To proceed, enter your password, or type Ctrl-C to abort. 


Password: 
The directory '/Users/jieleizhu/Library/Caches/pip/http' or its parent directory is not ¢ 
wner of that directory. If executing pip with sudo, you may want sudo's -H flag. 
The directory '/Users/jieleizhu/Library/Caches/pip' or its parent directory is not owned 
[ that directory. If executing pip with sudo, you may want sudo's -H flag. 
Collecting pip 
Downloading pip-8.8.0-py2.py3-none-any.whl (1.2MB) 
CoCo Wr 
Collecting wheel 
Downloading wheel-8.26.0-py2.py3-none-any.whl (63kB) 
Em | | || 
Installing collected packages: pip, wheel 
Successfully installed pip-8.0.0 wheel-0.26.0 


图 1-13 Mac OS T pip 安装 步骤 ( 见 彩 图 ) 


1.3.2.3 Python 2.x 开发 环境 推荐 


前 面 介 绍 了 许多 用 于 Windows 平台 的 Python 集成 开发 环境 。 这 些 IDE 同样 也 提 
HE Mac OS 的 软件 版 本 。 因 此 ,我 们 这 里 不 再 著述 这 些 软 件 的 使 用 优势 ,而 只 是 提供 这 些 
软件 Mac OS 版 本 的 下 载 地 址 。 
* Terminal; 习惯 Mac OS 的 用 户 多 数 认为 苹果 系统 的 终端 就 是 一 个 良好 的 编程 平 
台 , 这 点 作者 也 很 赞同 。 因 此 ,对 于 使 用 Mac OS 的 用 户 , 使 用 Python 的 IDLE, 
与 直接 在 Terminal 中 对 Python 进行 编程 差别 不 大 。 
* IPython: Mac OS 版 本 的 下 载 地 址 为 https://www. continuum. io/downloads # _ 
macosx。 
。 PyCharm: Mac OS 版 本 的 下 载 地 址 为 https://www. jetbrains. com/pycharm/ 
download/ # . 


ui ry 编程 基础 


本 节 主 要 为 没有 接触 过 或 者 正在 学 习 Python 编程 的 读者 而 设 。 不 同 于 那些 完整 介 


# Python 编程 的 书籍 中 ' 中 ,作者 并 没有 作 铺 陈 的 打算 ;而 是 尝试 从 本 书 的 需求 和 特点 
出 发 ,去 粗 取 精 ,提炼 “干货 ”, 向 读者 介绍 足以 用 来 理解 并 且 实 践 本 书 代码 的 Python 基础 
编程 知识 ?。 


1.4.1 Python 基本 语法 


从 “1.2 Python 编程 库 ”" 和 “1.3 Python 环境 配置 "两 节 对 Python 的 描述 中 ,对 这 门 
编程 语言 已 经 有 了 一 些 了 解 。 总 体 而 言 ,Python 代码 相对 简短 、 易 于 理解 .并 有 旦 具有 交互 
性 。 下 面 是 本 书 的 第 一 段 成 功 运行 的 Python 代码 : 


[ *= 1: 一 段 正确 运行 的 Python 代码 


>>> İMG True 


>>># 如 果 您 是 一 位 机 器 学 习 爱 好 者 ,系统 常规 输出 :推荐 您 购买 (Python 机 器 学 习 及 实践 )。 

>>> if isMiGeek: 

print 'I recommend you to read "DIY Machine Leaming Systems for Kaggle Competitions with Python 
Programming"! ' 

I recommend you to read "DIY Machine Learning Systems for Kaggle Competitions with Python Programming"! 


>>> 


我 们 通过 上 面 的 例子 向 读者 统一 介绍 对 本 书 代码 展示 的 如 下 约定 :〈 代 码 前 方 带 有 

二 二 二 提示 符 ) 带 有 灰色 背景 的 代码 为 输入 ,字体 为 Courier New。 字 体 加 粗 仍然 为 

Courier New, 但 是 没有 灰色 背景 的 , 视 为 常规 输出 ;其 他 设 定 同 上 ,但 是 颜色 为 红 ( 本 书 用 

深 底 纹 标 注 ) , 视 为 警告 或 者 系统 输出 。 而 在 代码 1 中 ,有 三 个 有 关 Python 编程 语法 的 关 
键 要 素 ,它们 分 别 是 : 

。 命令 提示 符 : 代码 中 每 一 行 有 关 Python 的 编程 语句 都 由 二 二 二 作为 命令 提示 

符 。 在 Python 的 命令 行 环境 中 ,一 般 每 两 个 命令 提示 符 之 间 的 代码 都 会 当即 被 

解释 器 处 理 9。 读 者 若是 自己 实践 代码 1. 输 入 第 1 行 并 按 回 车 键 , 刚 刚 输 入 的 命 

令 就 会 被 解释 器 处 理 和 执行 。 如 果 没 有 语法 或 者 其 他 错误 , 便 会 看 到 下 一 个 提示 


D 拓展 小 贴 士 7: 这 里 作者 需要 向 读者 说 明 的 是 ,本 书 所 介绍 的 Python 常用 编程 基础 知识 , 比 起 其 他 专业 介绍 Python 编程 的 书籍 ， 
内 容 并 不 完备 。Python 是 一 门 内 容 非常 广泛 的 编程 语言 ,因此 ,本 书 中 提 到 的 诸如 Python 数据 类 型 和 语法 语句 等 ,并 不 能 涵盖 Python 的 


所 有 内 容 。 如 要 深入 了 解 Python 高 级 编程 ,建议 读者 选择 阅读 [3],[4] 等 书籍 . 


@ 拓展 小 贴 士 8: 如 果 使 用 PyCharm 或 者 [Python Notebook 等 集成 开发 平台 ,我 们 则 看 不 到 Python 命令 行 提示 符 。 读 者 只 需要 在 


Python 源 文件 ( * . py) 中 输入 全 部 的 代码 ,随即 交 给 平台 运行 即 可 观察 到 一 样 的 输出 。 


符 , 如 代码 1 所 示 ; 如 果 输 入 的 代码 有 问题 ,如 代码 2 所 示 , 那 么 Python 解释 器 会 
反馈 一 段 错误 的 说 明 ,并 依然 给 出 提示 符 二 二 二 。 


[rs 2, 一段 错误 运行 的 代码 
: >>> isMIGeek 
‘Traceback (most recent call last): 
File "<pyshe11# ©", line 1, in «module» 
isviceek 
NameError: name 'isMrGeek' is not defined 


» | 


t 代码 缩 进 : 读者 如 果 按照 代码 1 输入 到 第 3 行 按 回 车 键 , 会 发 现 既 没有 常规 的 输 
出 ,也 没有 系统 错误 的 提示 ,更 没有 下 一 个 代码 提示 符 出 现 ;而 是 解释 器 在 下 一 行 
向 右 缩 进 ( 键 盘 上 对 应 制 表 符 Tab) 了 一 级 。 这 是 Python H C.C ++ 和 Java 这 些 
语言 在 代码 模块 设计 上 的 一 个 简化 。 许 多 在 CLC ++ RI Java 语言 中 需要 用 (} 来 分 
割 的 模块 ,在 Python 中 都 严格 采用 缩 进 机 制 进行 区 分 。 常 见 需要 缩 进 的 场景 包 
括 分 支 循环 、 也 数 定义 等 ,我 们 会 在 后 续 的 章节 一 一 介绍 和 举例 。 
注释 : 如 果 读 者 在 命令 行 环境 中 输入 代码 1 中 的 第 2 行 ,会 发 现 Python 解释 器 并 
没有 语法 错误 提示 。 并 不 是 因为 Python 有 识别 中 文 命令 的 能 力 ,而 是 我 们 使 用 
Ts 引导 了 一 行 代码 注释 。 而 代码 注释 会 被 解释 器 忽略 ,因此 读者 不 会 看 到 错 
误 提 示 。 有 些 读者 似乎 觉得 注释 没有 对 编程 有 实质 性 贡献 ,然而 ,恰恰 相反 ,为 代 
码 添加 注释 是 一 种 专业 性 的 良好 习惯 ,使 得 代码 便于 追溯 并 且 提 高 可 读 性 。 本 书 
将 秉承 这 一 良好 的 编码 习惯 ,在 需要 解释 的 地 方 都 会 增加 代码 注释 ,方便 读者 阅 
读 和 理解 。 

瑞士 计算 机 科学 家 、1984 年 图 灵 奖 获得 者 Niklaus E. Wirth 在 他 1976 年 出 版 的 著 
名 书籍 Algorithms 十 Data Structures = Programs 中 阐述 了 一 个 非常 经 典 的 观点 0 . 
程序 是 由 数据 结构 与 算法 组 成 。 因 此 ,我 们 对 后 续 Python 编程 细节 的 讲授 也 遵照 这 个 思 
路 , 先 与 读者 探讨 Python 数据 类 型 ,然后 逐步 深入 介绍 与 算法 有 关 的 运算 符 、 流 程控 制 、 
函数 以 及 编程 库 等 内 容 。 


1.4.2 Python 数据 类 型 


Python 内 阜 的 常用 数据 类 型 共有 6 种 : 数字 (Number)\ 布 尔 值 (Boolean)、 字 符 串 
(String) ,还 有 复杂 一 些 的 元 组 (Tuple) 、 列 表 (List) 以 及 字典 (Dictionary)。 比 起 其 他 高 


级 编程 语言 ,Python 内 置 数据 类 型 的 种 类 相对 简化 了 许多 , 详 述 如 下 。 

* 数字 (Number) : 常用 的 数字 类 型 包括 整 型 数 (Integer) ,长 整 型 数 (Long) 、 浮 点 数 

(Float) 以 及 复杂 型 数 (Complex) 。 整 型 数 和 浮 点 数 是 我 们 平时 最 常 使 用 的 两 类 ， 
举例 来 说 : 读者 可 以 先 简单 地 理解 为 常用 的 整数 ,如 10,100, — 100 等 都 是 整 型 
数 ;一 般 用 于 计算 的 小 数 , 如 一 0.1、10. 01 等 都 可 以 使 用 Python 的 浮 点 数 数 字 类 
型 进行 存储 了 ?。 长 整 型 与 复杂 数据 类 型 (虚数 ) 不 太 常用 ,因此 不 过 多 介绍 。 
布尔 值 (Boolean) ; 计算 机 的 计算 基础 是 二 进 制 ,因此 任何 一 门 编程 语言 都 会 有 这 
个 数据 类 型 ,用 来 表示 真 / 假 。 在 Python 中 ,这 两 个 值 有 固定 的 表示 : True 代表 
真 ,False 代表 假 。 切 记 , Python 是 大 小 写 敏感 的 编程 语言 ,因此 只 有 按照 这 样 输 
入 才 会 被 解释 器 理解 为 布尔 值 。 
PHR (String): 字符 串 是 由 一 系列 字符 (Character) 组 成 的 数据 类 型 ,应 用 范围 
十 分 广泛 ,特别 是 针对 文本 数据 的 处 理 。 在 Python 里 ,字符 串 的 表示 可 以 使 用 成 
对 的 英文 单 引 号 或 者 双 引 号 辅助 进行 表示 :“abe’ 或 者 "123”"。 尽 管 123 看 似 是 一 
个 整 型 数 ,但 是 一 旦 被 成 对 的 单 引号 或 者 双 引 号 限制 起 来 , 便 成 了 字符 串 类 型 的 
数据 。 

上 述 三 类 都 是 Python 基本 的 内 兽 数 据 类 型 。 它 们 是 数据 表达 、 存 储 的 基础 。 下 面 即 
将 介绍 的 三 种 数据 结构 相对 复杂 ,而 且 需 要 上 述 三 种 基础 数据 类 型 的 配合 。 

元 组 (Tuple); 元 组 是 一 系列 Python 数据 类 型 按照 顺序 组 成 的 序列 。 使 用 一 组 
小 括号 O 表征 ,如 (1, abe’, 0.4) 是 一 个 包含 有 三 个 元 素 的 元 组 。 而 且 读 者 会 
发 现 , 元 组 中 的 数据 类 型 不 必 统 一 ,这 个 是 Python 的 一 大 特点 。 另 外 ,假设 上 例 
的 这 个 元 组 叫做 t, 那 么 t[0] 的 值 为 1,t[1j 的 值 为 4bc'。 也 就 是 说 ,我 们 可 以 通过 
索引 直接 从 元 组 中 找到 我 们 需要 的 数据 。 特 别 需 要 提醒 的 是 ,大 多 数 编程 语言 
默认 索引 的 起 始 值 为 0, 不 是 1。 

列表 (List) : 列表 和 元 组 在 功能 上 几乎 是 类 似 的 ,只 是 表示 方法 略 有 不 同 。 列 表 
实用 一 对 中 括号 [] 来 组 织 数据 ,如 [1, 'abe', 0. 4]。 需 要 记 住 一 点 例外 的 是 : 
Python 允许 在 使 用 者 在 访问 列表 的 同时 修改 列表 里 的 数据 ,而 元 组 则 不 然 。 具 
体 实 例会 在 后 面 “1. 4. 3 Python 数据 运算 ” 节 中 展示 , 详 见 代码 5。 

字典 (Dictionary) ; 这 是 Python 里 面 非常 实用 而 且 功能 强大 的 数据 结构 ,特别 在 
数据 处 理 任务 里 面 ,字典 几乎 成 了 数据 存储 的 主流 形式 。 从 字典 自身 的 数据 结构 
而 言 , 它 包括 多 组 键 (key) : fH (value) 3} , Python 实用 大 括号 来 容纳 这 些 键 值 对 ， 


@ HRAS: 很 多 详细 介绍 Python 编程 的 专业 书籍 会 从 计算 机 存储 原理 的 角度 深入 介绍 各 个 类 型 可 以 表达 的 数据 范围 。 这 里 
不 过 多 涉猎 , 感 兴趣 的 读者 请 自行 阅读 其 他 材料 。 


122: Pree 


如 位 :1', 'abe';0. 1, 0. 4:80}。 需 要 读者 注意 的 是 ,字典 中 的 键 是 唯一 的 ,但 是 没 
有 数据 类 型 的 要 求 。 而 查找 某 个 键 对 应 的 值 也 和 元 组 或 者 列表 的 访问 方式 类 似 。 
比如 ,假设 上 例 的 字典 为 变量 d, 那 么 d[1] 的 值 为 1';d[L'abc1] 的 值 为 0. 1. 


1.4.3 Python 数据 运算 


既然 在 上 一 节 我 们 刚刚 介绍 了 Python 的 数据 类 型 , 接 下 来 ,我 们 开始 了 解 如 何 对 这 

些 数据 进行 运算 。 常 用 的 数据 运算 类 型 有 如 下 几 种 。 
* 算术 运算 (Arithmetic Operators): 毫 无 疑问 ,这 是 作为 一 门 编程 语言 必须 具备 的 
基础 运算 功能 。Python 常用 的 算术 运算 符 有 : 加 法 (十 ) 减法 (一 ) .乘法 (* )、 除 
法 (/) BUR CAO VA BREA RC O * ) 运 算 。 下 面 的 代码 3 展示 了 对 应 的 使 用 样 例 。 


[ kes 算术 运算 代码 举例 
>>># 整 数 加 法 。 
>>>10+ 20 
30 


>>># 整 数 与 浮 点 数 的 减法 。 
>>>30 -60.6 
-30.6 


>>>+# 整 数 与 浮 点数 的 乘法 。 
>>>4 * 8.9 
35.6 


>>># 整 数 与 整数 的 除法 ,这 里 会 发 现 结果 只 是 保留 了 取 整 后 的 商 数 。 
2225/4 
1 


>>># 整 数 与 浮 点 数 的 除法 ,结果 变 为 浮 点 数 。 
>>>5.0 / 4 
1.25 


>>># 整 数 取 模 运算 。 
>>>5%4 


diis. 
>>>2.0 * * 3 
8.0 


>>> J 


* 比较 运算 (Comparison Operators): 如 果 说 ,算术 运算 的 返回 值 一 般 是 数字 类 型 
的 话 ;那么 ,比较 运算 则 反馈 布尔 值 类 型 的 结果 , 详 见 代 码 4。 


[ m= 比较 运算 代码 举例 


>>># 整 数 比 较 。 
>>>10<20 

True 

>>> 10> 20 
False 


>>># 整 数 与 浮 点 数 的 比较 。 
>>>30 <=30.0 

True 

>>>30.0 >=30.0 

True 


>>># 判 断 两 个 值 是 否 相等 。 
>>>30==40 
False 


>>># 两 个 值 不 相等 的 判定 。 
>>>30 !=40 
Tue 


>>> J 


。 赋值 运算 (Assignment Operators): 上 述 两 类 运算 的 示例 都 有 一 个 共同 的 特点 ， 
即 所 有 的 运算 结果 都 只 是 作为 一 次 性 的 输出 使 用 。 然 而 ,更 多 情况 下 ,我 们 需要 
对 数据 运算 的 中 间 结 果 进 行 存储 ,以 备 后 续 使 用 。 因 此 .需要 将 一 些 数据 赋值 给 
自 定义 的 变量 。 与 许多 流行 的 高 级 编程 语言 CC++、Java 等 不 同 ,Python 在 声明 
变量 时 不 需要 预告 知 类 型 ,如 代码 5 所 示 。 


E 5. 峰值 运算 代码 样 例 


>>># 将 一 个 元 组 赋值 给 变量 t 
>>>t= ü, 'abc', 0.4) 


>>># 试 图 更 改元 组 t 的 第 一 个 元 素 ,但 是 解释 器 报错 ,具体 原因 我 们 已 经 讲 过 ,元 组 一 旦 初始 化 
不 可 以 改变 内 部 元 素 。 
>>>t[0]=2 


— — -- - TypeError Traceback (most recent call last) < ipythen- input- 16- 
29b330004f70» in < module» () -- -- > 1 t [0] = 2 TypeError: 'tuple' cbject does not support item 
assigment 


>>># 将 一 个 列表 赋值 给 变量 1, 
>>> ]= [1, 'abc', 0.4] 


>>># 试 图 更 改 列表 1 的 第 一 个 元 素 。 
>>>1[0]=2 


>>># 试 图 对 更 新 过 的 列表 1 的 第 一 个 元 素 2, 进 行 递增 1 并 重新 赋值 的 操作 。 
>>>1[0] + =1 

>>># 观 察 输 出 ,应 该 为 3. 

>>>1[0] 

3 


>>># 试 图 对 更 新 过 的 列表 1 的 第 一 个 元 素 2, 进 行 递减 2, 并 且 重 新 赋值 给 1[0]。 


>>>1[0] -=2 
>>># 观 察 输出 ,应 该 为 1. 
>>>1[0] 


1 
>>> J 
* 324832 G (Logical Operators) : 这 种 类 型 的 运算 比较 简单 ,共有 三 种 : 与 (and) 或 


Cor) 、 非 (not)。 如 代码 6 所 示 ,逻辑 运算 所 涉及 的 数据 类 型 为 布尔 值 ,返回 值 也 
是 布尔 值 , 所 以 仅仅 存在 有 限 的 几 种 可 能 性 。 


: 逻辑 运算 代码 样 全 


>>># 与 (and 运算 只 有 二 者 都 是 True 返回 值 才 是 Troe。 
>>> True and True 


>>># 或 (oD 运算 只 要 有 其 中 一 方 为 True, 运 算 结 果 就 是 Toe, 
>>> True or False 


True 
>>> False or False 
False 


>>># 非 (ncb) 运 算 直 接 反 转 布尔 值 。 
>>>not True 


False 


>>> J 


* 成 员 运 算 (Membership Operators): 这 是 针对 Python 里 面 较为 复杂 的 数据 结构 
而 设立 的 一 种 运算 ,主要 面向 元 组 .列表 和 字典 。 通 过 运算 符 in 询问 是 否 有 某 个 
元 素 在 元 组 或 者 列表 里 出 现 , 或 者 检视 某 个 键 (key) 是 否 在 字典 里 存在 。 这 是 
Python 里 面 非常 实用 而 且 功 能 强大 的 运算 ,特别 在 数据 处 理 任务 里 面 。 代 码 7 
将 会 延续 使 用 之 前 的 数据 样 例 进 行 说 明 。 


| 代码 7: 成 员 运 算 代 码 样 例 


>>># 将 一 个 列表 赋值 给 变量 1, 一 个 元 组 赋值 给 变量 t, 一 个 字典 赋值 给 变量 a, 
>>>1= [L, 'abc', 0.4] 

>>>t= (1, "abe", 0.4) 

>>>d= (1: "1, 'abc': 0.1, 0.4:80} 


>>># 试 图 询问 1 列表 中 是 否 有 0.4, 


>>>0.4 inl 
Tue 


>>># 试 图 询问 t 元 组 中 是 否 有 1. 
>>>1int 
Tre 


>>># 试 图 询问 字典 d 中 是 否 有 键 'abc'。 
>>> 'abc' ind 
Tre 


>>># 了 ip 只 能 用 来 考量 是 否 有 键 (Xey) ,不 能 告诉 您 是 否 有 值 Cvalue) 。 


>>>0.1ind 
- 


1.4.4 Python 流程 控制 
前 面 几 个 小 节 的 代码 示例 都 是 按照 正常 键入 的 顺序 依次 执行 的 ,这 是 最 为 常见 的 
Python 程序 执行 流程 。 然 而 ,有 一 些 情况 下 ,我 们 需要 选择 执行 或 者 重复 执行 某 个 代码 
片段 。 这 样 就 需要 通过 一 些 特殊 的 流程 控制 ,使 得 解释 器 可 以 跳跃 甚至 回溯 代码 ,比较 党 
见 的 包括 分 支 语句 (if) 和 循环 控制 (for) 。 
。 分 支 语句 (if) : 很 多 情况 下 ,需要 程序 根据 不 同 的 情况 对 代码 作出 选择 性 执行 ,这 
就 需要 分 支 语句 的 参与 。 与 分 支 语句 紧密 相连 的 数据 类 型 和 操作 类 型 分 别 是 布 
尔 值 与 好 辑 运 算 ,常见 几 种 语法 结构 如 下 。 
if Hi ARM AGE + 
【 制 表 符 ] 执 行 分 支 《可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 
REI 
else: 
【 制 表 符 ] 执 行 分 支 X 可 以 有 多 行 , 都 需要 制 表 符 缩 进 ) 
[CET 
或 者 
if Ai ARMA AGES 
【 制 表 符 ] 执 行 分 支 《可 以 有 多 行 , 都 需要 制 表 符 缩 进 ) 


【 制 表 符 ]… 

elif 布 尔 值 /表达 式 : 

【 制 表 符 ] 执 行 分 支 X 可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 
【 制 表 符 】… 
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【 制 表 符 ] 执 行 分 支 X 可 以 有 多 行 , 都 需要 制 表 符 缩 进 ) 
【 制 表 符 】… 


解释 器 会 依次 询问 这 与 elif 后 面 的 布尔 值 或 者 反馈 布尔 值 的 表达 式 , 一 旦 其 中 任何 
-个 为 真 , 便 会 执行 对 应 的 多 行 分 支 语句 ;如 果 其 中 没有 任何 一 个 为 真 , 则 执行 else 对 应 
的 语句 , 详 见 代 码 8。 


[ 59 8. 分 支 语 句 代码 样 例 


>>># 首 先 将 True 的 布尔 值 赋予 变量 b. 
>>>b= True 


>>># 然 后 使 用 分 支 语句 if else 组 合 。 
>>>if b: 

>>> print "It's True!" 

>>> else: 

>>> print "It's False!" 

>>> 


It's True! 


>>># 接 着 使 用 分 支 语句 if elif else 组 合 ,将 False 的 布尔 值 赋予 变量 b, True 赋予 变量 c 
>>>br False 

>>> Tne 

>>> if b: 

>>> print "b is Te!" 

>>>elif c: 

>>> print "cis True!" 

>>> else: 

>>> print "Both are False!" 


>>> 


c is True! 


>>># 将 False 的 布尔 值 赋予 变量 b, False 赋 予 变 量 c, 重复 一 遍 ,观察 结果 。 
>>>b=False 

>>> c= False 

>>>ifb: 

>>> — Print "bis True!" 


Both are False! | 


。 循环 控制 (for) : 还 有 一 些 情况 ,需要 循环 使 用 某 些 代码 。 这 是 计算 机 程序 为 人 类 
提供 的 极 大 便利 。 同 时 ,之 前 介绍 的 成 员 运算 符 (in) 也 会 参与 到 循环 控制 的 语法 
结构 中 ,因为 我 们 经 常会 借助 遍历 来 完成 对 循环 语句 的 控制 。 常 见 的 一 种 遍历 语 
法 如 下 : 

for 临 时 变量 in 可 遍历 数据 结构 (列表 、 元 组 .字典 ) : 

【 制 表 符 ] 执 行 语句 (可 以 有 多 行 ,都 需要 制 表 符 缩 进 ) 

【 制 表 符 】… 


在 执行 循环 语句 时 ,临时 变量 会 逐个 获得 可 遍历 数据 结构 中 的 值 ;每 获取 到 其 中 一 个 


值 之 后 , 制 表 符 缩 进 的 所 有 语句 会 执行 一 次 。 更 加 上 有 具体 的 代码 样 例 请 见 代 码 9。 


[ «9 9. 循环 语句 代码 样 例 


>>># 对 字典 d 的 键 进行 循环 遍历 ,输出 每 组 键 值 对 。 
>>>d= (1: '1', 'abc': 0.1, 0.4:80) 


>>> for k in d: 

>>> print k, ":", d[k] 
>>> 

1:1 


abc : 0.1 i 
0.4 : 80 | 


1.4.5 Python 函数 (模块 ) 设 计 


在 面 对 大 型 项 目的 时 候 , 随 着 堆砌 的 代码 越 来 越 多 ,编程 人 员 发 现 有 很 多 功能 重复 的 


模块 被 反复 地 键入 和 执行 。 因 此 ,大 家 开始 考虑 是 否 可 以 将 这 些 功能 具体 且 被 经 常 使 用 
的 代码 段 ,从 程序 中 抽 离 出 来 并 单独 封装 。 于 是 ,函数 (Function)/ 模 块 (Module) 的 概念 
出 现在 了 编程 语言 里 。 在 对 函数 /模块 的 设计 方面 ,我 们 可 以 向 函数 提供 必要 的 参数 输 
入 ,同时 可 以 从 函数 /模块 获取 所 需 的 返回 值 (return)。Python 采用 def 这 个 关键 词 来 定 


义 一 个 函数 /模块 ,如 代码 10 所 示 。 


| 代码 10; 函数 定义 和 调用 代码 样 例 


>>># 定 义 一 个 名 叫 fco 的 函数 ,传人 参数 x. 
>>> def fco (x): 


>>># 为 x 执 行 平 方 运算 ,返回 所 得 的 值 ,同时 注意 函数 体内 部 所 有 代码 一 律 缩 进 。 
>>>retum x * * 2 


>>># 调 用 函数 foo, 传 人 参数 值 为 8.0, 观 察 输出 ,结果 为 64.0. 
>>> fco(8.0) 


T J 


有 了 函数 /模块 的 帮助 ,我 们 便 可 以 更 好 地 组 织 和 规划 更 大 型 的 项 目 , 同 时 也 节省 了 
代码 的 人 工 费 用 。 


1.4.6 Python 编程 库 ( 包 ) 的 导 人 


当 读 者 已 经 学 会 如 何 通 过 封装 和 调用 自己 编写 的 函数 来 完成 较为 复杂 的 任务 的 时 
修 , 心 中 一 定 充满 了 成 就 感 。 特 别 是 ,如 果 对 于 自己 所 编写 的 某 些 函 数 模块 的 功能 和 效率 
都 信心 十 足 ,一 定 非常 希望 可 以 和 其 他 人 分 享 ,并 且 也 乐意 别人 的 程序 重用 这 些 函 数 模 
块 。 这 样 一 来 就 激励 着 大 家 互通 有 无 ,第 三 方程 序 库 (Library) 或 者 包 (Package) 的 概念 
就 应 运 而 生 。 有 一 些 编程 库 默 认 配置 在 Python 最 基本 的 解释 器 环境 中 ,这 些 是 我 们 经 常 
要 用 到 的 ;也 有 一 些 是 其 他 编程 爱好 者 所 开发 ,发 布 在 PyP1( Python Package Index) PF 
台 上 ,这 些 需 要 我 们 自主 安装 ( 见 “1. 3 Python 环境 配置 ” 节 )。 

事实 上 , 越 是 复杂 的 大 型 项 目 越 不 可 能 从 零 开 始 编程 ,更 不 可 能 要 求 一 位 程序 员 擅长 
自行 编写 所 有 功能 的 代码 。 实 际 使 用 中 ,哪怕 是 执行 一 些 相对 简单 的 数学 运算 ,我 们 其 至 
都 能 在 Python 语言 的 内 置 程 序 库 中 找到 可 以 导入 (import) 并 且 使 用 的 包 。 下 面 笔 者 在 
代码 11 中 列 出 了 几 种 导入 包 的 方法 。 


[ 代码 11: 程序 库 / 工 具 包 导入 代码 示例 


>>># 直 接 使 用 import 导入 math 工 具 包 。 
>>> import math 
>>># 调 用 math 包 下 的 函数 emp 求 自然 指数 。 


(D https: //pypi. python. org/ 
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>>>math.exp (2) 


7.38905609893065 
>>> 


>>># 从 (fram) math 工 具 包 里 指定 导入 exp BK. 
>>> from math import exp 
>>># 直 接 使 用 函数 名 称 调用 esp, 不 需要 声明 math 包 。 
>> ep) 
7.38905609893065 
>>> 


>>> # JA (frm math 工 具 包 里 指定 导入 ep 函数 ,并 且 对 emp 重 新 命名 为 ep. 
>>> frm math import exp as ep 
>>># 使 用 函数 emp 的 临时 替代 名 称 调 用 。 
»epQ) 
7.38905609893065 
>>> 


1.4.7 Python 基础 综合 实践 


这 里 ,我 们 提供 完整 的 “ 良 / 恶 性 乳腺 癌 肿 瘤 预测 ”问题 的 Python 源 代码 。 也 许 读者 
仍然 对 其 中 的 许多 具体 细节 不 够 了 解 , 这 份 代码 只 是 为 了 帮助 大 家 理 清 一 些 全 书 最 为 基 
本 的 Python 编程 要 素 , 方 便 各 位 对 后 续 实 例 的 理解 和 实践 。 同 时 .作者 会 在 有 必要 提供 
说 明 的 地 方 进行 注释 ,请 见 代码 12。 


[ts 12:“ 良 /恶性 乳腺 癌 肿 瘤 预 测 " 完 整 代码 样 例 


>>># 导 入 pandas 工 具 包 ,并 且 更 名 为 pa, 
>>> import pandas as pd 


- 


>>> iH FH pandas 工 具 包 的 read csv PS 3% /模块 ,传人 训练 文件 地 址 参数 ,获得 返回 的 数据 并 且 存 


至 变量 df train, 
>>> df train- pd.reed csv('. ./Datasets/Breast- Cancer/breast- cancer- train.csv") 


>>># 调 用 pandas 工 具 包 的 read csv AR /模块 ,传人 测试 文件 地 址 参数 ,获得 返回 的 数据 并 且 存 


至 变量 df test, 
>>>df test-pd.read csv('. ./Datasets/Breast—- Cancer/breast- cancer- test.csv') 
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>>># 选 取 'Clhump Thickness" 'Ce11 size" 作 为 特征 ,构建 测试 集中 的 正 负 分 类 样本 。 
>>> df_test_negative=df_test.loc[df_test["Type"] ==0] [['Clump Thickness", 

‘Gell Size']] 

>>> df test positive-df test.loc[df test ["Type"] ==1] [['Clurp Thickness", 

'Cell Size']] 


>>>+ 导 人 matplotlib T. R. fa rh fff) pyplot 并 简化 命名 为 pit. 
>>> import matplotlib.pyplot as plt 


>>># 绘 制图 ]- 2 中 的 良性 肿瘤 样本 点 ,标记 为 红色 的 o, 
>>>Plt.scatter(df test negative['Clump Thickness'],df test negative['Cell Size'], marker- 'o', s= 
200, c= 'red') 

>>># 绘 制图 1- 2 中 的 恶性 肿瘤 样本 点 ,标记 为 黑色 的 x. 

»»»pit.scatter(df test positive['Clump Thickness'],df test positive['Cell size'], marker= 'x', s= 
150, c= 'black') 


>>>+ 绘 制 x,y 轴 的 说 明 。 
>>>plt.xlabel ('Clunp Thickness') 
>>>plt.ylabel ('Cell Size') 

>>> # 显示 图 1-2, 

>>> plt.show() 


>>> # SA mmpy 工 具 包 , 并 且 重 命名 为 mp 

>>> import numpy as np 

>>> 4 #| FA mmpy 中 的 random e S Bü HL 3 FE EAR RER RA. 
>>> intercept- np. random.randam([1]) 

>>> coef= np. random. random ( [2] ) 

>>> Le mp.arange (0, 12) 

>>> ly= (= intercept - lx * coef[0]) / coef [1] 

>>># 绘 制 一 条 随机 直线 。 

>>>plt.plot (1x, ly, c= 'yellow') 


>>># 绘 制图 1-3. 

>>>plt.scatter(df test negative['Clump Thickness'],df test negat'ive["Ce11 Size'], marker- 'o', s= 
200, c= 'red!) 

>>> pit. scatter (df_test_positive['Clunp Thickness'],df test positive['O&ll Size'], marker- 'x', s= 
150, c= 'black') 
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>>> plt.xlabel ('Clurp Thickness") 
22» plt.ylabel ("Cell Size") 
>>>plt.show() 


>>># 导 入 skleam 中 的 逻辑 斯 蒂 回归 分 类 器 。 
>>> from sklearn.linear model import LogisticRegression 
>>> l= LogisticRegression() 


>>># 使 用 前 10 条 训练 样本 学 习 直 线 的 系数 和 截 距 。 

>>> Ir.fit (d£_train[['Clunp Thickness', 'Cell Size']][:10], df train['Type'] 

[:10]) 

>>> print "Testing accuracy (10 training samples):', lr.score(df test[['Clump Thickness', 'Cell Size 
*]], d£ test['Type!]) 

Testing accuracy (10 training samples): 0.868571428571 


>>> interoept= lr. intercept_ 
>>> coef= lr.coef_[0, :] 


>>># 原 本 这 个 分 类 面 应 该 是 1x w coef[0] + ly * coef[1] + interospt=0, 映 射 到 2 维 平面 上 之 


后 ,应 该 是 : 
>>> ly = (- intercept -1x * coef[0]) / coef [1] 


>>>+ 绘 制图 1-4, 

>>> plt.plot (1x, ly, c= 'green') 

>>>plt.scatter(df test negative['Clump Thickness'],df test negative['Oe11 Size'], marker- 'o', s= 
200, c= 'red') 

»»»plt.scatter(df test positive['Clump Thickness'],df test positive["Oe11 Size'], marker= 'x', s= 
150, c- 'black') 

>>> plt.xlabel ('Clump Thickness!) 

>>> plt.ylabel (Cell Size") 

»»»plt.show() 


>>> 1r-IogisticRegression() 

>>># 使 用 所 有 训练 样本 学 习 直 线 的 系数 和 截 距 。 

»»»1r.fit(df train[['Clump Thickness", 'Cell Size']], df train['Type']) 

»»»print "Testing accuracy (all training samples) :', lr.score(df test[['Clurp Thickness', 'Cell Size 
*]], df test["Type']) 


Testing accuracy (all training samples): 0.937142857143 


>>> intercept= lr.interoept - 
>>> coef=1r.coef_[0, :] 
>>> ly = (- intercept -1x * coef[0]) / coef[1] 


>>># 绘 制图 1-5. 

>>>plt.plot (1x, ly, c= 'blue') 

»»»plt.scatter(df test negative['Clump Thickness'],df test negative["Ce11 Size'], marker- 'o', s= 
200, c= 'red!) 

>>> plt. scatter (df test positive['Clump Thickness'],df test positive['Oell Size'], marker- 'x', s= 
150, c- 'black') 

>>> plt.xlabel ('Clurp Thickness") 

>>> plt.ylabel ("Cell Size") 


>>>plt.show() J 


n 15 章 末 小 结 


作为 全 书 的 起 始 章节 ,作者 希望 向 各 位 读者 提供 足够 的 理论 和 实践 知识 。 

从 理论 角度 上 讲 ,我们 在 “1. 1 机 器 学 习 综述 ” 节 与 “1. 2 Python 编程 库 ” 节 中 向 大 家 
ZRT: 

(1) 什么 是 机 器 学 习 ; 

(2) 机 器 学 习 的 三 要 素 ; 

G) 为 什么 使 用 Python 来 实践 机 器 学 习 ; 

(4) 本 书 预期 使 用 哪些 Python 的 编程 库 进行 机 器 学 习 的 快速 实践 。 

从 实践 角度 上 讲 ,“1. 3 Python 环境 配置 " 节 与 “1.4 Python 编程 基础 " 节 为 大 家 


(1) 针对 不 同 操作 系统 平台 ,提供 了 非常 详细 的 编程 环境 配置 步骤 ; 

(2) 足以 理解 和 实践 本 书 代 码 的 Python 编程 基础 ; 

(3) 一 份 完整 的 用 于 机 器 学 习 综合 实践 的 代码 样 例 。 

期 待 大 家 学 习 愉 快 ,本 章 所 有 数据 与 代码 示例 都 可 以 通过 如 下 链接 下 载 。 
http://pan. baidu. com/s/1dENAUTr 

littp; (pane baidi com/5/1gEN6QbD 


# 础 篇 


在 本 章 ,我 们 将 使 用 大 量 实例 和 数据 ,着 重 介绍 两 类 最 为 广泛 使 用 的 机 器 学 习 模型 
(监督 学 习 经 典 模型 与 无 监督 学 习 经 典 模型 ) 的 使 用 方法 、 性 能 评价 指标 以 及 优 缺点 。 

对 于 每 一 类 经 典 模型 ,都 将 从 模型 简介 数据 描述 、 编 程 实践 ,性 能 测评 以 及 特点 分 析 
5 个 角度 分 别 进行 阐述 。 


pa 监督 学 习 经 典 模型 


我 们 曾 在 第 1 章 中 提 到 过 :“ 机 器 学 习 中 监督 学 习 模 型 的 任务 重点 在 于 ,根据 已 有 经 
验 知识 对 未 知 样本 的 目标 /标记 进行 预测 。 根 据 目标 预测 变量 的 类 型 不 同 ,我们 把 监督 学 
习 任 务 大 体 分 为 分 类 学 习 与 回归 预测 两 类 。” 

尽管 如 此 ,我 们 仍然 可 以 对 它们 的 共同 点 进行 归纳 ,整理 出 如 图 2-1 所 示 的 监督 学 习 
任务 的 基本 架构 和 流程 : 首先 准备 训练 数据 ,可 以 是 文本 、 图 像 .音频 等 ;然后 抽取 所 需要 
的 特征 ,形成 特征 向 量 (Feature Vectors) ;接着 ,把 这 些 特征 向 量 连同 对 应 的 标记 /目标 
(Labels) 一 并 送 入 学 习 算 法 (Machine Learning Algorithm) 中 ,训练 出 一 个 预测 模型 
(Predictive Model) ;然后 ,采用 同样 的 特征 抽取 方法 作用 于 新 测试 数据 ,得 到 用 于 测试 的 
特征 向 量 ; 最 后 ,使 用 预测 模型 对 这 些 待 测试 的 特征 向 量 进行 预测 并 得 到 结果 (Expected 
Label), 

在 “2. 1.1 分 类 学 习 ” 节 中 ,为 了 展现 其 广泛 的 应 用 环境 ,对 于 每 一 种 分 类 学 习 模 型 ， 
我 们 都 会 使 用 不 同 的 任务 以 及 数据 样 例 进行 说 明 。 在 逐渐 掌握 这 些 基 本 分 类 模型 的 使 用 
方法 之 后 ,会 在 “2.1.2 回归 预测 节 中 集中 解决 一 个 相同 的 问题 并 使 用 一 套 相 同 的 数据 
样 例 ,比较 不 同 回 归 模 型 的 性 能 差异 ;同时 也 可 以 让 读者 体验 到 不 断 尝 试 不 同 模型 ,进而 
改进 学 习性 能 的 乐趣 。 


Supervised Learning Model 


图 2-1 监督 学 习 基本 架构 和 流程 ( 见 彩 图 ) 了 


2.1.1 分 类 学 习 


分 类 学 习 是 最 为 常见 的 监督 学 习 问 题 ,并 且 其 中 的 经 典 模型 也 最 为 广泛 地 被 应 用 。 
其 中 ,最 基础 的 便 是 二 分 类 (Binary Classification) 问 题 , 即 判断 是 非 , 从 两 个 类 别 中 选择 
一 个 作为 预测 结果 ; 除 此 之 外 还 有 多 类 分 类 (Multiclass Classification) 的 问题 , 即 在 多 于 
两 个 类 别 中 选择 一 个 ;甚至 还 有 多 标签 分 类 (Multi-label Classification) 问 题 ,与 上 述 二 分 
类 以 及 多 类 分 类 问题 不 同 , 多 标签 分 类 问题 判断 一 个 样本 是 否 同时 属于 多 个 不 同类 别 。 

在 实际 生活 和 工作 中 ,我 们 会 遇 到 许 许 多 多 的 分 类 问题 ,比如 ,医生 对 肿瘤 性 质 的 判 
定 :邮政 系统 对 手写 体 邮编 数字 进行 识别 ;互联 网 资讯 公司 对 新 闻 进 行 分 类 ;生物 学 家 对 
物种 类 型 的 鉴定 ;甚至 ,我 们 还 能 够 对 某 些 大 灾难 的 经 历 者 是 否 生还 进行 预测 等 。 


2.1.1.1 线性 分 类 器 


。 模型 介绍 : 线性 分 类 器 (Linear Classifiers) ,顾名思义 ,是 一 种 假设 特征 与 分 类 结 
果 存 在 线性 关系 的 模型 。 这 个 模型 通过 累加 计算 每 个 维度 的 特征 与 各 自 权重 的 
乘积 来 帮助 类 别 决策 。 


四 图片 来 自 于 http://www. astroml. org 


` Phha 机 器 学 习 及 实践 


如 果 我 们 定义 x 二 二 zi,z;,…,z, 祈 来 代表 维特 征 列 向 量 ?, 同 时 用 维 列 向 量 w 
=< w owe urn uw, > 来 代表 对 应 的 权重 ,或 者 叫做 系数 (Coefficient); 同 时 为 了 避免 其 
过 坐标 原点 这 种 硬性 假设 ,增加 一 个 截 距 (Intercept) b, 由 此 这 种 线性 关系 便 可 以 表达 为 


f (w.x,b)= wx +b 
这 里 的 ER, 取 值 范围 分 布 在 整个 实数 域 中 。 


(1) 


然而 ,我 们 所 要 处 理 的 最 简单 的 二 分 类 问题 希望 f € (0.1); 因此 需要 一 个 函数 把 原 


先 的 f ER 映射 到 (0,1)。 于 是 我 们 想到 了 逻辑 斯 蒂 (Logistic) PR: 
1 
g(z)— Eget 
这 里 的 x € R 并 且 g € (0.1) ,并 且 其 函数 图 像 如 图 2-2 所 示 。 


逻辑 斯 蒂 函数 


0.8 


-10 -5 D 5 10 
图 2-2 还 辑 斯 蒂 函 数 图 像 
综 上 ,如 果 将 = 替换 为 f, 整合 方程 式 (1) 和 方程 式 (2) ,就 获得 了 


类 器 ,逻辑 斯 蒂 回 归 模型 2(Logistic Regression) : 


he (x)= g(f(w.xz,b))= = 


O ”拓展 小 贴 士 10: 一 般 情况 下 ,许多 机 器 学 习 或 者 线性 代数 的 相关 书籍 都 把 这 些 默认 为 列 向 量 。 


l = 
Ite? 1+ e cr 


从 图 2-2 中 便 可 以 观察 到 该 模型 如 何 处 理 一 个 待 分 类 的 特征 向 量 : 


(2) 
-个 经 典 的 线性 分 
(3) 
m z= 0, 那么 


© ”拓展 小 贴 士 11: 这 里 需要 说 明 一 下 ,虽然 它 叫做 “回归 "模型 ,但 是 事实 上 这 只 是 一 种 约定 俗 成 的 称谓 ,事实 上 它 仍然 是 一 种 经 典 


的 分 类 模型 。 


g — 0.5; # z — 0 W g — 0. 5, 这 个 特征 向 量 被 判别 为 一 类 ;反之 ,车 < 二 0, 则 g 二 0.5， 
其 被 归 为 另外 一 类 。 
当 使 用 一 组 痉 个 用 于 训练 的 特征 向 量 X — < x' ax? sx > fll 3 BT XJ u BU 435 H PF 
y — yy! y" >, RAIE 822 3 N BSN nT D) fE X A UI A E F R SR ffi 
(Maximum Likelihood) fif] 83 L Ow.) , sk t Bi. EO REIRE L eu nt. 
argmax L (w+.p)— argmax il (hes )) (A — ha (G)) 7 (4) 


为 了 学 习 到 决定 模型 的 参数 (Parameters) , 即 系数 w MAREE o. 我 们 普遍 使 用 一 种 精 
确 计算 的 解析 算法 和 一 种 快速 估计 的 随机 梯度 上 升 (Stochastic Gradient Ascend WO, 
这 里 我 们 不 会 过 多 介绍 这 些 算法 的 细节 ,有 兴趣 的 读者 可 以 自行 查阅 斯 坦 福 大 学 吴 恩 达 
(Andrew Ng) 教 授 的 机 器 学 习 课 件 @。 这 里 只 会 在 编程 实践 一 节 中 向 大 家 介绍 如 何 使 用 
这 两 种 算法 求解 模型 参数 。 
。 数据 描述 : 这 一 节 , 我 们 使 用 之 前 在 第 1 章 中 探讨 过 的 “ 良 /恶性 乳腺 癌 肿 疤 预 测 ” 
数据 为 例子 ,来 实践 这 一 节 所 讲解 的 九 辑 斯 蒂 回归 分 类 器 。 与 第 1 章 不 同 的 是 ， 
本 次 将 完整 地 使 用 该 数据 所 有 的 特征 作为 训练 分 类 器 参数 的 依据 ,同时 采用 更 为 
精细 的 测评 指标 对 模型 性 能 进行 评价 。 原 始 数据 的 下 载 地 址 为 : https:// 
archive, ics. uci. edu/ml/machine-learning-databases/ breast-cancer-wisconsin/ 。 
根据 其 数据 描述 : 
Nuber of Instances: 699 (as of 15 July 1992) 
Nuber of Attributes: 10 plus the class attribute 
Attribute Information: (class attribute has been moved to last colum) 


# Attribute Damin 
1. Sample code ruber id mnber 
2. Clunp Thickness 1-10 
3. Unifomnity of Cell Size 1-10 
4. Uniformity of Cell Shape 1-10 
5. Marginal Adhesion 1-10 
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O 拓展 小 贴 士 12: 当 读 者 阅读 到 本 书 的 第 3 章 , 就 会 进一步 明白 为 什么 这 里 这 样 表 述 。 事实 上 ,任何 模型 在 训练 集 上 的 表现 都 不 一 


定 能 够 代表 其 最 终 在 未 知 待 测 数据 集 上 的 性 能 ;但 是 ,至 少 要 先 保证 模型 可 以 被 训练 集 优化 。 


© ”拓展 小 贴 士 13: 事实 上 ,不 管 是 随机 梯度 上 升 (SGA) 还 是 随机 梯度 下 降 (SGD) ,都 隶属 于 用 梯度 法 迭代 渐进 估计 参数 的 过 程 。 梯 


度 上 升 用 于 目标 最 大 化 ,梯度 下 降 用 于 目标 最 小 化 。 在 线性 回归 中 ,我们 会 接触 优化 目标 最 小 化 的 方程 。 
@ http://cs229. stanford. edu/notes/cs229-notes1. pdf 


6. Single Epithelial Cell Size 1-10 

7. Bare Nuclei. 1-10 

8. Bland Chromatin 1-10 

9. Normal Nucleoli 1-10 

10. Mitoses 1-10 

11. Class: @ for benign, 4 for malignant) 


Missing attribute values: 16 
‘There are 16 instances in Groups 1 to 6 that contain a single missing 
(i.e., unavailable) attribute value, now denoted by "2". 


Class distribution: 

Benign: 458 (65.5%) 

Malignant: 241 (34.5%) 
我 们 得 知 该 原始 数据 共有 699 条 样本 ,每 条 样本 有 11 列 不 同 的 数值: 1 列 用 于 检索 的 id， 
9 列 与 肿瘤 相关 的 医学 特征 ,以 及 一 列表 征 肿 瘤 类 型 的 数值 。 所 有 9 列 用 于 表示 肿瘤 医 
学 特质 的 数值 均 被 量化 为 1 一 10 之 间 的 数字 ,而 肿瘤 的 类 型 也 借 由 数字 2 和 数字 4 分 别 
指 代 良性 与 恶性 。 不 过 ,这 份 数据 也 声明 其 中 包含 16 个 缺失 值 ,并 且 用 *?” 标 出 。 事 实 
上 ,缺失 值 问 题 广泛 存在 于 现实 数据 中 ,也 是 机 器 学 习 任 务 无 法 回避 的 问题 ;然而 ,考虑 到 
读者 学 习 本 书 的 渐进 性 ,我 们 在 本 章 的 所 有 实践 都 会 将 数据 预 处 理 后 供 各 位 使 用 。 对 于 
存在 缺失 值 的 数据 ,都 暂时 予以 忽略 ;而 用 于 处 理 缺失 数据 的 方法 会 在 后 续 为 大 家 介绍 。 
下 面 这 段 代 码 用 于 预 处 理 原始 肿瘤 数据 : 


[kan nmm mma 


>>># 导 入 pnis 5j ny TRE. 
>>> import pandas as pd 
>>> import numpy as np 


>>> # 创建 特征 列表 。 

>>> colum names- ['Sample code number'，'Clump Thickness', 'Uniformity of Cell Size", "Uniformity 
ell Shape", ‘Marginal Adhesion’, 'Single Epithelial Cell Size', "Bare Nuclei", "Bland Chrametin', 
Normal Nucleoli', 'Mitoses', 'Class'] 


>>># 使 用 pandas.read csv 函 数 从 互联 网 读 取 指 定数 据 -。 


第 2 章 基础 篇 ` 


>>> data- pd.read csv ('https: //archive.ics.uci.ech/ml machine- leaming- 
Gatabases/breast- cancer- wisoonsin/breast- cancer- wisconsin.data', names- 
colum names) 


>>># 将 ? 替换 为 标准 缺失 值 表示 。 

>>> data= data.replace (to replace= '? ', value=np.nan) 
>>># 丢 弃 带 有 缺失 值 的 数据 (只 要 有 一 个 维度 有 缺失 ) 。 
>>> data= data.dropna (how= 'any') 

>>>+# 输 出 data 的 数据 量 和 维度 。 

>>> data.shape 


(683, 11) J 


如 代码 13 的 输出 所 示 ,经 过 简单 的 处 理 之 后 ,无 缺失 值 的 数据 样本 共有 683 条 ,特征 
包括 细胞 厚度 、 细 胞 大 小 、 形 状 等 9 个 维度 ,并 且 每 个 维度 的 特征 均 量 化 为 1 一 10 之 间 的 
数值 进行 表示 ,如 图 2-3 所 示 。 


‘Sample code [Clump | Uniformity of | Uniformity of |Marginal “ |Singie Epithelial |Bare [Biland — |Normat 

number Thickness | Cell Size Cell Shape Adhesion | Cell Size [Nuciei |chromatin |Nucieon | Mitoses|Class 
DEZ=ND 1 1 1 2 1 3 1 1 2 
afioozsas — |5 4 4 5 7 w f 2 1 2 
下 ae — [s 1 : h z E 1 1p 
3|1016277 6 8 8 h 3 4 3 7 1 2 
al1017023 — ja 1 1 3 2 1 3 1 1 2 


图 2-3 和 良 /恶性 乳腺 癌 肿 瘤 数据 样 例 


由 于 原始 数据 没有 提供 对 应 的 测试 样本 用 于 评估 模型 性 能 ,因此 需要 对 带 有 标记 的 
数据 进行 分 割 。 通 常情 况 下 .25% 的 数据 会 作为 测试 集 .其 余 75% 的 数据 用 于 训练 ,如 代 
码 14 所 示 。 


| 代码 14: HE R/T EE ZL AR HS 


>>># 使 用 skleam.cross_valiation Hf] train test split 模块 用 于 分 割 数据 。 

>>> fram sklearn.cross validation import train test split 

>>># 随 机 采样 258 的 数据 用 于 测试 , 剩 下 的 758 用 于 构建 训练 集合 。 i 
>>>X train, X test, y train, y test-train test split(data[colum names[1:10]], data[colum names 
[10]], test. size=0.25, randm state=33) 


>>># 查 验 训练 样本 的 数量 和 类 别 分 布 。 


i40: Pyha 机 器 学 习 及 实 中 


>>>Y train.value counts () 
2 3⁄4 

4 168 

Nawe: Class, dtype: int64 


>>># 查 验 测试 样本 的 数量 和 类 别 分 布 。 
>>>Y test.value conts() 

2 10 

4 n 


Name: Class, dtype: int64 | 


综 上 ,我 们 用 于 训练 样本 共有 512 条 (344 条 良性 肿瘤 数据 、168 条 恶性 肿瘤 数据 ) , 测 
试 样本 有 171 条 (100 条 良性 肿瘤 数据 ,71 条 恶性 肿瘤 数据 ) 。 
* 编程 实践 : 接 下 来 ,我们 在 代码 15 中 使 用 好 辑 斯 蒂 回 归 与 随机 梯度 参数 估计 两 种 
方法 对 上 述 处 理 后 的 训练 数据 进行 学 习 , 并 且 根 据 测试 样本 特征 进行 预测 。 


人 代码 15: 使 用 统 性 分 类 模型 从 事 良 /恶性 肿 交 预测 任务 


>>> 从 sklearn.preprocessing 里 导 人 Standardscaler。 

>>> fran skleam. preprocessing import standardscaler 

>>> + JÁ skleam. linear model Hi A LogisticRegression 与 Sanclassifier, 
>>> from sklearn.linear model import LogisticRegression 

>>> from sklearn.linear model import SGDClassifier 


>>># 标 准 化 数据 ,保证 每 个 维度 的 特征 数据 方差 为 1, 均 值 为 0。 使 得 预测 结果 不 会 被 某 些 维度 
过 大 的 特征 值 而 主导 。 

>>> ss= StandardScaler () 

>>>X train-ss.fit transfom(X train) 

>>>X test-ss.transform(X test) 


>>># 初 始 化 Logisticmegression 与 Sarclassifier, 

>>> l= LogisticRegression() 

>>> s= Classifier () 

>>> illl Hl Logistichegression rh ff]. fit 函数 /模块 用 来 训练 模型 参数 。 

>>> 1r.fit K train, y train) 

>>># 使 用 训练 好 的 模型 lr 对 X test 进行 预测 ,结果 储存 在 变量 1r y predict rh. 
>>> 1r y predict= 1r.predict X test) 


>>># 调 用 sepclassifier 中 的 fit B t ABR FAK Ul A HUS c 

>>> sdk. fit X train, y train) 

>>>+ 使 用 训练 好 的 模型 cac xf x test 进 行 预测 ,结果 储存 在 变量 sgac y predict th, 

»»»sgi y predict- sgic.predict (X test) E 


° 性 能 测评 : 在 代码 15 的 最 后 ,我 们 分 别 利用 LogisticRegression 与 SGDClassifier 

针对 171 条 测试 样本 进行 预测 工作 。 由 于 这 171 条 测试 样本 拥有 正确 标记 ,并 记 

录 在 变量 y_test 中 ,因此 非常 直观 的 做 法 是 比 对 预测 结果 和 原本 正确 标记 ,计算 

171 条 测试 样本 中 ,预测 正确 的 百分比 。 我们 在 把 这 个 百分比 称 作 准确 性 
(Accuracy) ,并 且 将 其 作为 评估 分 类 模型 的 一 个 重要 性 能 指标 。 

然而 ,在 许多 实际 问题 中 ,我 们 往往 更 加 关注 模型 对 某 一 特定 类 别 的 预测 能 力 。 这 

时 ,准确 性 指标 就 变 得 笼统 了 。 比 如 ,在 “ 良 / 澡 性 肿瘤 预测 任务 "里 ,医生 和 患者 往往 更 加 

关心 有 多 少 恶性 肿瘤 被 正确 地 诊断 出 来 ,因为 这 种 肿瘤 更 加 致命 。 也 就 是 说 ,在 二 分 类 任 

务 下 ,预测 结果 (Predicted Condition) 和 正确 标记 (True Condition) 之 间 存 在 4 种 不 同 的 

组 合 ,构成 混 消 矩阵 (Confusion Matrix). 如 图 2-4 所 示 。 如 果 恶 性 肿瘤 为 阳性 

(Positive) ,良性 肿瘤 为 阴性 (Negative) ,那么 ,预测 正确 的 恶性 肿瘤 即 为 真 阳 性 (True 

Positive) ,预测 正确 的 良性 肿瘤 为 真 阴性 (True Negative) ; 原本 是 良性 肿瘤 (Condition 


m jon positivi 


图 2-4 混淆 矩阵 示例 了 ( 见 彩 图 ) 


O 图 片 来 自 维基 百科 : https://en. wikipedia. org/wiki/Precision_and_recall 


negative) , 误 判 为 恶性 肿瘤 (Predicted condition positive) ff] Jj (E [H E (False Positive) ;而 
实际 是 恶性 肿瘤 ,但 是 预测 模型 没有 检测 出 来 , 则 为 假 阴性 (False Negative), FKE, £ 
生 和 病 患 最 不 愿 看 到 的 是 有 假 阴 性 (False Negative) 的 结果 ,因为 这 种 误诊 会 耽误 病 患 的 
治疗 ,进而 危及 生命 。 

因此 ,除了 准确 性 (Accuracy) 之 外 ,我 们 还 引入 了 两 个 评价 指标 ,分 别 是 召回 率 
(Recall) 和 精确 率 (Precision)。 它 们 的 定义 分 别 是 : 


Accuracy= 
# (True positive) + # (True negative) (5) 
# (True positive) + # (True negative) + # (False positive) + # (False negative) 
sia + (True positive) 
Decision # (True positive) + € (False positive) (6) 
Recall # (True positive) 07) 


+ (True positive) + # (False negative) 
其 中 ,# (True positive) 代表 真 阳性 样本 的 数量 ,其 余 以 此 类 推 。 此 外 ,为 了 综合 考量 召 
回 率 与 精确 率 ,我 们 计算 这 两 个 指标 的 调和 平均 数 ,得 到 F1 指标 (Fl measure); 

F1 measure=— y —]— (8) 

Precision Recall 
式 (8) 之 所 以 使 用 调和 平均 数 ,是 因为 它 除 了 有 具备 平均 功能 外 ,还 会 对 那些 召回 率 和 精确 
率 更 加 接近 的 模型 给 予 更 高 的 分 数 ;而 这 也 是 我 们 所 期 待 的 ,因为 那些 召回 率 和 精确 率 差 
距 过 大 的 学 习 模 型 ,往往 没有 足够 的 实用 价值 。 
回 到 本 节 所 讨论 的 任务 ,对 于 乳腺 癌 肿 瘤 预 测 的 问题 ,我 们 显然 更 加 关注 召回 率 ,也 

就 是 应 该 被 正确 识别 的 恶性 肿瘤 的 百分比 。 对 于 召回 率 更 高 的 预测 模型 ,医生 和 患者 会 
更 为 信赖 并 给 予 更 多 关注 。 因 此 ,让 我 们 用 代码 16 来 更 加 细致 地 分 析 一 下 两 个 模型 在 上 
述 4 个 指标 (准确 性 ,召回 率 、 精 确 率 以 及 Fl 指标 ) 的 表现 情况 。 


E 16. 使 用 线性 分 类 模型 从 事 良 / 恶 性 肿瘤 预测 任务 的 性 能 分 析 


>>># 从 skleam.netrics H 5f A, classification report 模 块 。 
>>> fram sklearn.metrics import classification report 


>>> # 使 用 逻辑 斯 蒂 回 归 模 型 自 带 的 评分 函数 score 获 得 模型 在 测试 集 上 的 准确 性 结果 。 
>>>print "Accuracy of IR Classifier:', lr.score(X test, y test) 

>>># 利 用 classification report 模 块 获得 Iogisticregression 其 他 三 个 指标 的 结果 。 
>>>print classification report (y test, lr y predict, target names= ['Benign', 'Malignant']) 


precision recall fl- score ‘support 
Benign 0.99 0.99 0.99 100 
Malignant 0.99 0.99 0.99 pi 


avg / total 0.99 0.99 0.99 1n 


>>># 使 用 随机 梯度 下 降 模型 自 带 的 评分 函数 score 获 得 模型 在 测试 集 上 的 准确 性 结果 。 
>>>Print 'Accuarcy of SGD Classifier:', sgdc.score(X test, y test) 

>>> # Al FH] classification report BURG f. ssnclassifier 其 他 三 个 指标 的 结果 。 

»»»print classification report(y test, soi: y predict, target names- ['Benign', "Malignant']) 


阅读 了 代码 16 输出 的 报告 之 后 ,我 们 可 以 发 现 ， LogisticRegression 比 起 
SGDClassifier 在 测试 集 上 表现 有 更 高 的 准确 性 (Accuracy)。 这 是 因为 Scikit-learn 中 采 
用 解析 的 方式 精确 计算 LogisticRegression 的 参数 ,而 使 用 梯度 法 估计 SGDClassifier 的 
参数 。 

。 特点 分 析 : 线性 分 类 器 可 以 说 是 最 为 基本 和 常用 的 机 器 学 习 模型 。 尽 管 其 受 限 

于 数据 特征 与 分 类 目标 之 间 的 线性 假设 ,我 们 仍然 可 以 在 科学 研究 与 工程 实践 中 
把 线性 分 类 器 的 表现 性 能 作为 基准 。 这 里 所 使 用 的 模型 包括 LogisticRegression 
与 SGDClassifier。 相 比 之 下 ,前 者 对 参数 的 计算 采用 精确 解析 的 方式 ,计算 时 间 
长 但 是 模型 性 能 略 高 ;后 者 采用 随机 梯度 上 升 算 法 估计 模型 参数 ,计算 时 间 短 但 
是 产 出 的 模型 性 能 略 低 。 一 般 而 言 , 对 于 训练 数据 规模 在 10 万 量 级 以 上 的 数据 ， 
考虑 到 时 间 的 耗 用 ,笔者 更 加 推荐 使 用 随机 梯度 算法 对 模型 参数 进行 估计 。 


2.1.1.2 支持 向 量 机 (分 类 ) 


模型 介绍 : 在 第 1 章 的 “ 良 / 恶 性 乳腺 癌 肿 瘤 预测 ”的 例子 中 ,曾经 使 用 多 个 不 同 颜 
色 的 直线 作为 线性 分 类 的 边界 。 同 样 , 如 图 2-5 所 示 的 数据 分 类 问题 ,我 们 更 有 
无 数 种 线性 分 类 边界 可 供 选 择 。 


图 2-5 包括 支持 向 量 机 分 类 器 在 内 的 多 种 分 类 直线 ( 见 彩 图 ) 


图 2-5 中 提供 了 三 种 颜色 的 直线 ,用 来 划分 这 两 种 类 别 的 训练 样本 。 其 中 绿色 直线 
了 在 这 些 训练 样本 上 表现 不 佳 , 本 身 就 带 有 分 类 错误 ;橙色 直线 Hs 和 红色 直线 Hs 如 果 作 
为 这 个 二 类 分 类 问题 的 线性 分 类 模型 ,在 训练 集 上 的 表现 都 是 完美 的 。 

然而 ,拓展 小 贴 士 4 和 拓展 小 贴 士 12 中 都 曾 提 到 过 ,由 于 这 些 分 类 模型 最 终 都 是 要 
应 用 在 未 知 分 布 的 测试 数据 上 ,因此 我 们 更 加 关注 如 何 最 大 限度 地 为 未 知 分 布 的 数据 提 
供 足 够 的 待 预测 空间 。 比 如 ,如 果 有 一 个 黑色 样本 稍稍 向 右 偏 离 橙色 直线 ,那么 这 个 黑色 
样本 很 有 可 能 被 误 判 为 白色 样本 ,造成 误差 ;而 红色 直线 在 空间 中 的 分 布 位 置 依 然 可 以 为 
更 多 “稍稍 偏离 ”的 样本 提供 足够 的 “容忍 度 ”。 因 此 ,我 们 更 加 期 望 学 习 到 红色 的 直线 作 
为 更 好 的 分 类 模型 。 

支持 向 量 机 分 类 器 (Support Vector Classifier) , 便 是 根据 训练 样本 的 分 布 , 搜 索 所 有 
可 能 的 线性 分 类 器 中 最 佳 的 那个 了 ?。 进 一 步 仔 细 观 察 图 2-5 中 的 红色 直线 ,我 们 会 发 现 决 
定 其 直线 位 置 的 样本 并 不 是 所 有 训练 数据 ,而 是 其 中 的 两 个 空间 间隔 最 小 的 两 个 不 同类 
别 的 数据 点 ,而 我 们 把 这 种 可 以 用 来 真正 帮助 决策 最 优 线 性 分 类 模型 的 数据 点 叫做 “支持 
向 量 "。 收 辑 斯 蒂 回归 模型 在 训练 过 程 中 由 于 考虑 了 所 有 训练 样本 对 参数 的 影响 ,因此 不 
一 定 获得 最 佳 的 分 类 器 。 

。 数据 描述 : 邮政 系统 每 天 都 会 处 理 大量 的 信件 ,最 为 要 紧 的 一 环 是 要 根据 信件 上 


O 拓展 小 贴 士 14: 这 里 所 说 的 “最 佳 "不 是 绝对 的 。 换 句 话说 ,不 是 在 所 有 的 数据 集 上 ,支持 向 量 机 的 性 能 表现 就 一 定 优 于 普通 的 线 
性 模型 或 者 其 他 模型 。 这 里 的 假设 是 : 如 果 未 知 的 待 测 数据 也 如 训练 数据 一 样 分 布 ,那么 的 确 支持 向 量 机 可 以 帮助 我 们 找到 最 佳 的 分 类 
器 。 然 而 ,很 多 实际 应 用 数据 总 是 有 偏差 的 。 


的 收 信人 邮编 进行 识别 和 分 类 ,以 便 确 定 信件 的 投 送 地 。 原 本 这 项 任务 是 依靠 大 
量 的 人 工 来 进行 ,后 来 人 们 尝试 让 计算 机 来 替代 人 工 。 然 而 ,因为 多 数 的 邮编 都 
是 手写 的 数字 ,并 且 样 式 各 异 , 所 以 没有 统一 编制 的 规则 可 以 很 好 地 用 于 识别 和 
分 类 。 机 器 学 习 兴 起 之 后 ,开始 逐渐 有 研究 人 员 重 新 考虑 这 项 任务 ,并 且 有 大 量 
的 研究 证 明 ,支持 向 量 机 可 以 在 手写 体 数 字 图 片 的 分 类 任务 上 展现 良好 的 性 能 。 
此 在 这 一 节 , 我 们 要 使 用 支持 向 量 机 分 类 器 处 理 Scikit-learn 内 部 集成 的 手写 
体 数字 图 片 数据 集 ?, 并 且 通 过 如 下 代码 提取 数据 : 


[ 5» 17; 手写 体 数据 读 取代 码 样 例 


>>># 从 skleam.datasets 里 导 人 手写 体 数 字 加 载 器 。 

>>> from sklearn.datasets import load digits 

>>># 从 通过 数据 加 载 器 获得 手写 体 数字 的 数码 图 像 数据 并 储存 在 digits 变 量 中 。 
>>> digits= load digits() 

>>>+# 检 和 视 数据 规模 和 特征 维度 。 

>>> digits.data.shape 


(1797L, 64L) | 


代码 17 的 输出 表明 : 该 手写 体 数 字 的 数码 图 像 数据 共有 1797 条 ,并 且 每 幅 图 片 是 


Hi 8x 8—64 的 像素 矩阵 表示 。 在 模型 使 用 这 些 像 素 和 矩阵 的 时 候 : 我 们 习惯 将 2D 的 图 片 
像素 矩阵 逐 行 首尾 拼接 为 1D 的 像素 特征 向 量 。 这 样 做 也 许 会 损失 一 些 数据 本 身 的 结构 
信息 ,但 是 遗憾 的 是 ,我 们 当下 所 介绍 的 经 典 模型 都 没有 对 结构 性 信息 进行 学 习 的 
fit? 


依照 惯例 ,对 于 没有 直接 提供 测试 样本 的 数据 ,我 们 都 要 通过 数据 分 割 获取 75% 的 


训练 样本 和 25% 的 测试 样本 ,代码 如 下 : 


| 代码 18: 手写 体 数据 分 割 代码 样 例 


>>># 从 skleam.cross validation 中 导 人 train test split 用 于 数据 分 割 。 
>>> frm skleam.cross validation import train test split 
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O 拓展 小 贴 士 15: Scikit-learn 中 集成 的 手写 体 数字 图 像 仅仅 是 https://archive. ics. uci. edu/ml/datasets/Optical + Recognition + of 


十 Handwritten 十 Digits 的 测试 数据 集 。 我 们 将 在 后 面 “2. 2. 2. 1 主 成 分 分 析 ” 节 中 使 用 完整 的 数据 集 进行 分 析 。 


© 拓展 小 贴 士 16: 虽然 本 书 所 介绍 的 大 部 分 模型 都 没有 处 理 结构 化 数据 信息 的 能 力 , 但 是 感 兴趣 的 读者 可 以 跳跃 到 *4. 4 MNIST 


手写 体 数字 图 片 识别 " 节 , 了 解 一 些 用 于 处 理 这 些 结构 化 图 片 信息 的 当下 流行 的 深度 学 习 技术 。 
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>>># 随 机 选取 75% 的 数据 作为 训练 样本 ;其 余 25% 的 数据 作为 测试 样本 。 
>>>X train, X test, y train, y test-train test split digits.data, digits.target, test size- 0.25, 
ranam state- 33) 


>>># 分 别 检视 训练 与 测试 数据 规模 。 
>>> y_train.shape 

034) 

>>>y test.shape 


(st) |] 


° 编程 实践 : 接 下 来 ,我 们 使 用 代码 18 所 产生 的 1347 条 样本 训练 基于 线性 假设 的 
支持 向 量 机 模型 ,代码 如 下 : 


[ «9 19: 使 用 支持 向 量 机 (分 类 ) 对 手写 体 数字 图 像 进 行 识别 


>>># 从 sklearn.preprocessing 里 导 和 人 数据 标准 化 模块 。 

>>> fram skleam.preprocessing import Standardscaler 

>>> # JA skleam.swm 里 导入 基于 线性 假设 的 支持 向 量 机 分 类 器 Linearsvc, 
>>> fran skleam.svm inport Linearsvc 


>>> 4 从 仍然 需要 对 训练 和 测试 的 特征 数据 进行 标准 化 。 
>>> ss= Standardscaler () 

>>>X train-ss.fit transform(X train) 

>>>X test-ss.transfom(X test) 


>>>+ 初 始 化 线性 假设 的 支持 向 量 机 分 类 器 Linearsvc。 

>>>]svc=IinearsvC() 

>>># 进 行 模型 训练 

>>> Isve.fit X train, y train) 

>>># 利 用 训练 好 的 模型 对 测试 样本 的 数字 类 别 进行 预测 ,预测 结果 储存 在 变量 y predict 中 。 
>>> y_predict= 1svc.predict (X test) 


° 性 能 测评 : 572.1. 1. 1 线性 分 类 器 ” 节 中 的 评价 指标 一 样 ,我 们 使 用 准确 性 、 召 回 
率 、 精 确 率 和 Fl 指标 ,这 4 个 测度 对 支持 向 量 机 (分 类 ) 模 型 从 事 手写 体 数字 图 像 
识别 任务 进行 性 能 评估 , 详 见 代码 20. 


代码 20: 支持 向 量 机 (分 类 ) 模 型 对 手写 体 数码 图 像 识别 能 力 的 评估 


>>># 使 用 模型 自 带 的 评估 函数 进行 准确 性 测评 。 

»»»print "Ihe Accuracy of Linear SW is', Isve.score X test, y test) 

The Accuracy of Linear SVC is 0.953333333333 

>>># 依 然 使 用 skleam.metrics 里 面 的 classification report 模 块 对 预测 结果 做 更 加 详细 的 分 析 。 

>>> fran skleam.metrics import classification report 

»»»print classification report (y test, y predict, target names-digits.target names.astype (str)) 
precision recall fl-score support 


0.92 
0.96 
0.98 
0.93 
0.97 
0.94 
0.96 
0.92 
0.98 
0.95 


wernuewnro 


avg / total 0.95 


通过 代码 20 的 测试 结果 可 以 知道 ,支持 向 量 机 (分 类 ) 模 型 的 确 能 够 提供 比较 高 的 手 


1.00 
0.98 
1.00 
0.93 
1.00 
0.94 
0.98 
1.00 
0.84 
0.91 


0.95 
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写 体 数字 识别 性 能 。 平 均 而 言 ,各 项 指标 都 在 95% 上 下 。 


在 这 里 需要 进一步 指出 的 是 : 召回 率 、 准 确 率 和 FT 指标 最 先 适用 于 二 分 类 任务 ;但 

是 在 本 示例 中 ,我 们 的 分 类 目标 有 10 个 类 别 , 即 0 一 9 的 10 个 数字 。 

上 述 三 个 指标 。 通 常 的 做 法 是 ,逐一 评估 某 个 类 别 的 这 三 个 性 能 指标 : 我 们 把 所 有 其 他 

的 类 别 看 做 阴性 ( 负 ) 样 本 ,这 样 一 来 ,就 创造 了 10 个 二 分 类 任务 。 事 实 上 .不仅 学 习 模 型 
在 对 待 多 类 分 类 任务 时 是 这 样 做 的 ,而 且 代 码 20 最 终 的 输出 也 证 明了 笔者 的 观点 。 

。 特点 分 析 : 支持 向 量 机 模型 曾经 在 机 器 学 习 研究 领域 繁荣 发 展 了 很 长 一 段 时 间 。 

主要 原因 在 于 其 精妙 的 模型 假设 ,可 以 帮助 我 们 在 海量 甚至 高 维度 的 数据 中 ,得 

选 对 预测 任务 最 为 有 效 的 少数 训练 样本 。 这 样 做 不 仅 节省 了 模型 学 习 所 需要 的 

数据 内 存 , 同 时 也 提高 了 模型 的 预测 性 能 。 然 而 ,要 获得 如 此 的 优势 就 必然 要 付 


因此 无 法 直接 计算 
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出 更 多 的 计算 代价 (CPU 资源 和 计算 时 间 )。 因 此 ,请 读者 在 实际 使 用 该 模型 的 
时 候 ,权衡 其 中 的 利 丙 ,进而 达成 各 自 的 任务 目标 。 


2.1.1.3 朴素 贝 叶 斯 


* 模型 介绍 : 朴素 贝 叶 斯 (Naive Bayes) 是 一 个 非常 简单 ,但 是 实用 性 很 强 的 分 类 模 
型 。 不 过 ,和 上 述 两 个 基于 线性 假设 的 模型 (线性 分 类 器 和 支持 向 量 机 分 类 器 ) 不 
同 , 朴 素 贝 叶 斯 分 类 器 的 构造 基础 是 贝 叶 斯 理论 。 
抽象 一 些 说 ,朴素 贝 叶 斯 分 类 器 会 单独 考量 每 一 维度 特征 被 分 类 的 条 件 概率 ,进而 综 
合 这 些 概 率 并 对 其 所 在 的 特征 向 量 做 出 分 类 预测 。 因 此 ,这 个 模型 的 基本 数学 假设 是 : 
各 个 维度 上 的 特征 被 分 类 的 条 件 概 率 之 间 是 相互 独立 的 。 
如 果 采 用 概率 模型 来 表述 , 则 定义 x =< armen, 为 某 一 维特 征 向 量 , y € 
£a sei st sce} 为 该 特征 向 量 x 所 有 种 可 能 的 类 别 , 记 P(y = ci | x) 为 特征 向 量 x 属 
于 类 别 c; 的 概率 。 根 据 式 (9) 的 贝 叶 斯 原理 : 


Poy | x)= PLP (9) 


我 们 的 目标 是 寻找 所 有 y € (6.0) P P(y | x) 最 大 的 , 即 argmax Pcy| x); 
并 且 考 虑 到 PO) ERA LY ET Lm A. BEDA. 
argmaxP (y|x) —argmaxP (x|y)P (y) = argmasP.(zjs Fst, 1y)P(y) (10) 
若 每 一 种 特征 可 能 的 取 值 均 为 0 或 者 1， 在 没有 任何 特殊 假设 的 条 件 下 ， 计算 
P(Uzizz…vr | y) 需要 对 k x 27 个 可 能 的 参数 进行 估计 : 
P(misza sss z, |y)=P(a | Y)P (a2 lz y)P (z aia y) P Gr ln ote tt nui y) 
(11) 
但 是 由 于 朴素 贝 叶 斯 模型 的 特征 类 别 条 件 独立 假设 ，P(z, | zyzz，…zriyy) 一 
PG, | y); 车 依然 每 一 种 特征 可 能 的 取 值 只 有 2 种 ,那么 只 需要 估计 24m 个 参数 , 即 PCy 
=0|y=a),P(q =1|y= c), Pln =1|y= 60).。 
为 了 估计 每 个 参数 的 概率 ,采用 如 下 的 公式 ,并 且 改 用 频率 比 近似 计算 概率 : 


Pir, = 1,y= a) _ #(z, = ly = c) 
PG = c) # (y = c) 


° 数据 描述 : 朴素 贝 叶 斯 模型 有 着 广泛 的 实际 应 用 环境 ,特别 是 在 文本 分 类 的 任务 
中 间 ,包括 互联 网 新 闻 的 分 类 ,垃圾 邮件 的 筛选 等 。 本 节 中 ,我 们 将 使 用 经 典 的 
20 类 新 闻 文 本 作为 试验 数据 。 获 取 数据 的 代码 如 下 : 


Pie; = 1 | y == (12) 


[ 代码 21: EM 20 类 新 闻 文本 的 数据 细节 


>>># 从 skleam.datasets 里 导 人 新 闻 数据 抓 取 器 fetch 20newsgroups, 

>>> fran skleam.datasets import fetch 2ünewsgrouns 

>>># 与 之 前 预存 的 数据 不 同 , fetch_20newsgroups 需 要 即时 从 互联 网 下 载 数据 。 
>>> news= fetch 20newsgroups (subset= 'all') 

>>>+# 查 验 数据 规模 和 细节 。 

»»»print Jen (news.data) 

>>> print news.data[0] 

18846 


‘From: Matha Devineni Ratnam <mr47+ 8 andrew.am.edr- 
Subject: Pens fans reactions 

Organizaticn: Post Office, Carnegie Mellon, Pittsburgh, PA 
Lines: 12 

NNTP- Posting- Host: po4.andrew.am.eda 


1 am sure same bashers of Pens fans are pretty confused about the lack 

of any kind of posts about the recent Pens massacre of the Devils. Actually, 

Iam bit puzzled too and a bit relieved. However, I am going to put an end 

to nar- PIttsturghers' relief with a bit of praise for the Pens. Man, they 

are killing those Devils worse than I thought. Jagr just showed you why 

he is much better than his regular season stats. He is also a lot 

fo fun to watch in the playoffs. Bowman should let Jagr have a lot of 

fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was 
‘very disappointed not to see the Islanders lose the final 

regular season game. FENS RULE!!! _| 


由 代码 21 的 输出 ,可 获知 该 数据 共有 18846 条 新 闻 ;不 同 于 前 面 的 样 例 数据 ,这 些 文 
本 数据 既 没有 被 设 定 特征 ,也 没有 数字 化 的 量度 。 因 此 ,在 交 给 朴素 贝 叶 斯 分 类 器 学 习 之 
前 ,要 对 数据 做 进一步 的 处 理 。 不 过 在 此 之 前 ,我 们 仍然 需要 如 代码 22 Brz ,对 数据 进行 
分 割 并 且 随 机 采样 出 一 部 分 用 于 测试 。 


[ 代码 22: 20 类 新 闻 文 本 数据 分 割 


>>># 从 skleam.cross validation A train test split, 
>>> from skleam.cross_validstion import train test split 
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>>># 随 机 采样 25% 的 数据 样本 作为 测试 集 。 


>>>X train, X test, y train, y test-train test split(news.data, news.target, test size= 0.25, 


Tanam state-33) J 


°` 编程 实践 : 这 部 分 的 工作 首先 将 文本 转化 为 特征 向 量 , 然 后 利用 朴素 贝 叶 斯 模型 
从 训练 数据 中 估计 参数 ,最 后 利用 这 些 概率 参数 对 同样 转化 为 特征 向 量 的 测试 新 
闻 样 本 进行 类 别 预测 ,如 代码 23 所 示 。 


| 代码 23: 使 用 朴素 贝 叶 斯 分 类 器 对 新 闻 文本 数据 进行 类 别 预测 


>>># 从 skleam.feature extracticn.text 里 导入 用 于 文本 特征 向 量 转化 模块 。 详 细 介 绍 请 读者 参 
考 “3.1.1.1 特征 抽取 ” 节 。 

>>> frm sklearn.feature extraction.text import CountVectorizer 

>>> vec= CountVectorizer () 

>>>X_train= vec.fit_transform( train) 

>>> X_test= vec.transform(x_test) 


>>> # 从 skleam.naive_bayes Hi S A #F# bl nt Nr BUR. 

>>> frm sklearn.naive bayes import MiltinonialNB 

>>> 从 使 用 默认 配置 初始 化 朴素 贝 叶 斯 模型 。 

>>> mmb=MaltinamialNs () 

>>> + 利用 训练 数据 对 模型 参数 进行 估计 。 

»»»mpb.fit(X train, y train) 

>>> 对 测试 样本 进行 类 别 预测 ,结果 存储 在 变量 y predict 中 。 

>>> y predict=nrb.predict X test) _ 


* 性 能 测评 : 与 “2. 1.1.1 线性 分 类 器 ” 节 的 评价 指标 一 样 ,我 们 使 用 准确 性 、 召 回 
率 、 精 确 率 和 Fl 指标 ,这 4 个 测度 对 朴素 贝 叶 斯 模型 在 20 类 新 闻 文 本 分 类 任务 
上 的 性 能 进行 评估 ,详细 代码 如 下 所 示 。 


| 代码 24: 对 朴素 贝 叶 斯 分 类 器 在 新 闻 文本 数据 上 的 表现 性 能 进行 评估 


>>># 从 skleam.metrics $ 5 A classification report 用 于 详细 的 分 类 性 能 报告 。 
>>> from sklearn.metrics import classification report 

>>> print "Ihe accuracy of Naive Bayes Classifier is', mrb.score(X test, y test) 
>>>print classification report (y test, y predict, target names-news.target names) 


The accuracy of Naive Bayes Classifier is 0.839770797963 


avg / total 


precision recall 
0.86 0.86 
0.59 0.86 
0.89 0.10 
0.60 0.88 
0.93 0.78 
0.82 0.84 
0.91 0.70 
0.89 0.89 
0.98 0.92 
0.98 0.91 
0.93 0.99 
0.86 0.98 
0.85 0.88 
0.22 0.94 
0.89 0.96 
0.78 0.96 
0.88 0.96 
0.90 0.98 
0.79 0.89 
0.93 0.44 
0.86 0.84 


0.82 
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通过 代码 24 的 输出 ,我们 获知 朴素 贝 叶 斯 分 类 器 对 4712 条 新 闻 文 本 测试 样本 分 类 
的 准确 性 约 为 83. 977% ,平均 精确 率 、 召 回 率 以 及 Fl 指标 分 别 为 0.86.0.84 和 0. 82, 
。 特点 分 析 : 朴素 贝 叶 斯 模型 被 广泛 应 用 于 海量 互联 网 文本 分 类 任务 。 由 于 其 较 
强 的 特征 条 件 独 立 假设 ,使 得 模型 预测 所 需要 估计 的 参数 规模 从 宕 指数 量 级 向 线 
性 量 级 减少 , 极 大 地 节约 了 内 存 消 耗 和 计算 时 间 。 但 是 ,也 正 是 受 这 种 强 假设 的 
限制 ,模型 训练 时 无 法 将 各 个 特征 之 间 的 联系 考量 在 内 ,使 得 该 模型 在 其 他 数据 


特征 关联 性 较 强 的 分 类 任务 上 的 性 能 表现 不 佳 。 


2.1.1.4 K ERE) 


° RENA: K 近邻 模型 本 身 非 常 直观 并 且 容 易 理解 。 算 法 描述 起 来 也 很 简单 ,如 


图 2-6 所 示 。 假 设 我 们 有 一 些 携带 分 类 标记 的 训练 样本 ,分布 于 特征 空间 中 ; 蓝 
色 、 绿 色 的 样本 点 各 自 代 表 其 类 别 。 对 于 一 个 待 分 类 的 红色 测试 样本 点 ,未 知 其 
类 别 ,按照 成 语 * 近 朱 者 赤 , 近 墨 者 黑 ” 的 说 法 ,我 们 需要 寻找 与 这 个 待 分 类 的 样本 
在 特征 空间 中 距离 最 近 的 K 个 已 标记 样本 作为 参考 ,来 帮助 我 们 做 出 分 类 决策 。 
这 便 是 K 近邻 算法 的 通俗 解释 。 而 在 图 2-6 中 ,如 果 我 们 根据 最 近 的 K = 3 个 
带 有 标记 的 训练 样本 做 分 类 决策 ,那么 待 测试 的 样本 应 该 属于 绿色 类 别 , 因 为 在 
3 个 最 近邻 的 已 标记 样本 中 ,绿色 类 别 样本 的 比例 最 高 ;如 果 我 们 扩大 搜索 范围 ， 
设 定 K = 7, 那 么 分 类 器 则 倾向 待 测 样本 属于 蓝 色 。 因 此 我 们 也 可 以 发 现 , 随 着 
K 的 不 同 ,我 们 会 获得 不 同 效果 的 分 类 器 。 


图 2-6 K 近邻 算法 展示 样 例 ( 见 彩 图 ) 


数据 描述 : 在 这 一 节 , 我 们 向 读者 朋友 展示 如 何 利 用 K 近邻 算法 对 生物 物种 进行 
分 类 ,并 且 使 用 最 为 著名 的 “ 萝 尾 ”(Iris) 数 据 集 。 该 数据 集 曾 经 被 Fisher 用 在 其 
经 典 论文 中 中 ,目前 作为 教科 书 般 的 数据 样本 预存 在 Scikit-learn 的 工具 包 中 。 
下 面 的 代码 25 将 指导 各 位 如 何 读 取 该 数据 。 


| 代码 25: 读 取 Iris 数据 集 细 节 资 料 


>>># 从 skleam.catasets 导入 iris 数 据 加 载 器 。 
>>> fran sklearn.datasets import load iris 


O 拓展 小 贴 士 16: 这 里 是 想 向 读者 暗示 一 件 事情 : K 不 属于 模型 通过 训练 数据 学 习 的 参数 ,因此 要 在 模型 初始 化 过 程 中 提前 确定 ; 
但 是 天 值 的 不 同 又 会 对 模型 的 表现 性 能 有 巨大 影响 ,所 以 需要 我 们 给 予 更 多 关注 。 这 些 笔者 都 会 在 第 3 章 中 深入 讨论 。 


>>># 使 用 加 载 器 读 取 数 据 并 且 存 人 变量 iris, 


>>>iris= load iris0 


>>># 查 验 数据 规模 。 
>>> iris.data.shape 


(150L, 4) 


>>># 查 看 数据 说 明 。 对 于 一 名 机 器 学 习 的 实践 者 来 讲 ,这 是 一 个 好 习惯 。 
>>>print iris. ESR 


Iris Plants Database 


Notes 
Data Set Characteristics: 
Number of Instances: 150 (50 in each of three classes) 
Number of Attributes: 4 numeric, predictive attributes and the class 
:Attribute Infomation: 
= spal length in an 
— spal width in an 
-petal length in an 
-petal width in m 


seal length: 4.3 7.9 5.84 0.83 0.7826 


seal width: 2.0 4.4 3.05 0.43 -0.4194 
petal length: 1.0 6.9 3.76 1.76 0.9490 (high!) 
petal width: 0.1 2.5 1.20 0.76 0.9665 (high!) 


Missing Attribute Values: None 
:Class Distribution: 33.3% for each of 3 classes. 


:Creator: R.A. Fisher 
:Donor: Michael Marshall (MARSHALLA PLU@ io.arc.nasa.gov) 


:Date: July, 1968 J 


通过 上 述 代码 对 数据 的 查验 以 及 数据 本 身 的 描述 ,我 们 了 解 到 Iris 数据 集 共 有 150 
朱 萝 尾数 据 样本 ,并 且 均 匀 分 布 在 3 个 不 同 的 亚 种 ;每 个 数据 样本 被 4 个 不 同 的 花瓣 、 花 
葛 的 形状 特征 所 描述 。 由 于 没有 指定 的 测试 集 , 因 此 按照 惯例 ,我 们 需要 对 数据 进行 随机 
分 割 ,25% 的 样本 用 于 测试 ,其 余 75% 的 样本 用 于 模型 的 训练 。 

这 里 我 们 需要 额外 强调 的 是 ,如 果 读 者 朋友 自行 编写 数据 分 割 的 程序 ,请 务必 要 保证 
随机 采样 。 尽 管 许多 数据 集中 样本 的 排列 顺序 相对 随机 ,但 是 也 有 例外 。 本 例 Iris 数据 
集 便 是 按照 类 别 依 次 排列 。 如 果 只 是 采样 前 25% 的 数据 用 于 测试 ,那么 所 有 的 测试 样本 
都 属于 一 个 类 别 , 同 时 训练 样本 也 是 不 均衡 的 (Unbalanced) . 3 FÉ £3 591 (19 Zi FEFE E fij Vt 
(Bias) ,并 且 可 信和 度 非常 低 。Scikit-learn 所 提供 的 数据 分 割 模块 ,如 代码 26 所 示 默 认 了 
随机 采样 的 功能 ,因此 大 家 不 必 担 心 。 


[ 59 26: 对 Iris 数据 集 进行 分 割 


>>># 从 sklearn.cross validaticn 里 选择 导 人 train test_split 用 于 数据 分 割 。 

>>> from skleam.cross validation import train test split 

>>># 从 使 用 train test _ split, 利用 随机 种 子 random state 采 样 25% 的 数据 作为 测试 集 。 

>>>X train, X test, y train, y test=train_test_split (iris.data, iris.target, test_size= 0.25, ` 
randm state= 33) 


。 编程 实践 : 接 下 来 ,我 们 在 代码 27 中 ,使 用 Scikit-learn 中 的 K 近邻 分 类 器 ,对 测 
试 样本 进行 分 类 预测 : 


[ «9 27. 使 用 K 近邻 分 类 器 对 营 尾 花 (Iris) 数 据 进行 类 别 预测 


>>> JA sklearn.preprocessing 里 选择 导入 数据 标准 化 模块 。 

>>> fran sklearn.preprocessing import Standardscaler 

>>># 从 skleam.neighbors 里 选择 导入 ENeigtborsClassifier, Bl K 近 邻 分 类 器 。 
>>> fran skleam.neighbors inport KNeighborsClassifier 


>>># 对 训练 和 测试 的 特征 数据 进行 标准 化 。 
>>> ss= StandardScaler () 
>>>X_train= ss.fit_transfonn( train) 


>>>X_test= ss.transform(x test) 


>>># 使 用 K 近 邻 分 类 器 对 测试 数据 进行 类 别 预测 ,预测 结果 储存 在 变量 predict 中 。 

>>> mc= Feighborsclassifier () 

>>> kne.fit X train, y train) 

>>> y predict- knc.predict (X test) _ | 


* 性 能 测评 : 5572.1. 1.1 线性 分 类 器 ” 节 中 的 评价 指标 一 样 ,使 用 准确 性 、 召 回 率 、 
精确 率 和 Fl 指标 ,4 个 测度 对 K 近邻 分 类 模型 在 经 典 意 尾 花 品种 预测 任务 上 进 
行 性 能 评估 , 详 见 代 码 28。 


[ts 28. 对 K JE 48-59 E 88 632 EHE (Iris) MABE AY tt EE TA 45 


>>>+ 使 用 模型 自 带 的 评估 函数 进行 准确 性 测评 。 
>>> print "The accuracy of K- Nearest Neighbor Classifier is', knc.score(X test, y test) 
‘The accuracy of K- Nearest Neighbor Classifier is 0.894736842105 


>>># 依 然 使 用 skeam metrics Hi H ff) classification report 模 块 对 预测 结果 做 更 加 详细 的 分 析 。 
>>> fran skleam.metrics import classification report 
»»»print classification report(y test, y predict, target names-iris.target names) 

precision recall fl- score support 


setosa 1.0 1.00 1.0 8 
versicolor 0.73 1.00 0.85 n 
virginica 1.00 0.79 0.88 19 
avg / total 0.92 0.89 0.90 38 


| 


代码 28 的 输出 说 明 , K 近邻 分 类 器 对 38 条 昔 尾 花 测 试 样本 分 类 的 准确 性 约 为 

89. 47494 ,平均 精确 率 、 召 回 率 以 及 Fl 指标 分 别 为 0.92、0.89 和 0. 90。 
。 特点 分 析 : K 近邻 (分 类 ) 是 非常 直观 的 机 器 学 习 模型 ,因此 深 受 广大 初学 者 的 喜 
爱 。 许 多 教科 书 常常 以 此 模型 为 例 抛砖引玉 , 便 足 以 看 出 其 不 仅 特别 ,而 且 尚 有 
瑕 盖 之 处 。 细 心 的 读者 会 发 现 ,K 近邻 算法 与 其 他 模型 最 大 的 不 同 在 于 : 该 模型 
没有 参数 训练 过 程 。 也 就 是 说 ,我 们 并 没有 通过 任何 学 习 算法 分 析 训 练 数据 ,而 


只 是 根据 测试 样本 在 训练 数据 的 分 布 直接 做 出 分 类 决策 。 因 此 ,K 近邻 属于 无 参 
数 模型 (Nonparametric model) 中 非常 简单 一 种 。 然 而 , 正 是 这 样 的 决策 算法 , 导 
致 了 其 非常 高 的 计算 复杂 度 和 内 存 消耗 。 因 为 该 模型 每 处 理 一 个 测试 样本 ,都 需 
要 对 所 有 预先 加 载 在 内 存 的 训练 样本 进行 遍历 ,逐一 计算 相似 度 、 排 序 并 且 选 取 
K 个 最 近邻 训练 样本 的 标记 ,进而 做 出 分 类 决策 。 这 是 平方 级 别 的 算法 复杂 度 ， 
一 旦 数据 规模 稍 大 ,使 用 者 便 需 要 权衡 更 多 计算 时 间 的 代价 了 。 


2.1.1.5 决策 树 


。 模型 介绍 : 在 前 面 所 使 用 的 逻辑 斯 蒂 回 归 和 支持 向 量 机 模型 ,都 在 某 种 程度 上 要 
求 被 学 习 的 数据 特征 和 目标 之 间 遵 照 线性 假设 。 然 而 ,在 许多 现实 场景 下 ,这 种 
假设 是 不 存在 的 。 
比如 ,如 果 要 借 由 一 个 人 的 年 龄 来 预测 患 流感 的 死亡 率 。 如 果 采 用 线性 模型 假设 ,那么 
只 有 两 种 情况 : 年 龄 越 大 死亡 率 越 高 ;或 者 年 龄 越 小 死亡 率 越 高 。 然 而 ,根据 常识 判断 , 青 
壮年 因为 更 加 健全 的 免疫 系统 , 相 较 于 儿童 和 老年 人 不 容易 因 患 流感 死亡 。 因 此 ,年 龄 与 因 
流感 而 死亡 之 间 不 存在 线性 关系 。 如 果 要 用 数学 表达 式 描述 这 种 非 线 性 关系 ,使 用 分 段 
函数 最 为 合理 ;而 在 机 器 学 习 模型 中 ,决策 树 就 是 描述 这 种 非 线性 关系 的 不 二 之 选 。 
再 比如 ,信用 卡 申请 的 审核 涉及 申请 人 的 多 项 特征 ,也 是 典型 的 决策 树 模型 。 正 如 
图 2-7 所 示 : 决策 树 节点 (node) 代 表 数 据 特征 ,如 年 龄 (age)、 身 份 是 否 是 学 生 (student)、 
信用 评级 (credict_rating) 等 ;每 个 节点 下 的 分 支 代表 对 应 特征 值 的 分 类 ,如 年 龄 包括 年 轻 
人 (youth) .中 年 人 (middle_aged) 以 及 老年 人 (senior) ,身份 区 分 是 否 是 学 生 , 等 等 ;而 决 
策 树 的 所 有 叶子 节点 (leaf) 则 显示 模型 的 决策 结果 。 对 于 是 否 通 过 信用 卡 申 请 而 言 , 这 
是 二 分 类 决策 任务 ,因此 只 有 yes 和 no 两 种 分 类 结果 。 
如 图 2-7 所 示 ,这 类 使 用 多 种 不 同 特征 组 合 搭建 多 层 决策 树 的 情况 ,模型 在 学 习 的 时 
候 就 需要 考虑 特征 节点 的 选取 顺序 。 常 用 的 度量 方式 包括 信息 炉 (Information Gain) 和 
基尼 不 纯 性 (Gini Impurity) 。 本 书 将 不 做 过 多 引申 ,有 兴趣 的 读者 可 以 参阅 参考 文献 [8] 
的 第 5 章 。 
。 数据 描述 : 虽然 很 难 获取 到 信用 卡 公司 客户 的 资料 .但 是 也 有 类 似 借 助 客户 档案 
进行 二 分 类 的 任务 。 本 节 要 使 用 的 数据 来 自 于 历史 上 一 件 家 喻 户 晓 的 灾难 性 事 


O 拓展 小 贴 士 17: 对 K 近邻 有 深入 了 解 的 读者 一 定 会 反驳 这 个 观点 ,因为 有 类 似 KD-Tree 这 样 的 数据 结构 , 透 过 “空间 换取 时 间 ” 
的 思想 ,节省 决策 时 间 。 考 虑 到 本 书 的 受众 ,作者 只 在 这 里 提 及 ,有 兴趣 的 读者 可 以 自行 深入 研究 和 探讨 。 

© 拓展 小 贴 士 18: 阅读 Scikit-learn 中 决策 树 模型 的 文档 http://scikit-learn. org/stable/modules/generated/sklearn, tree. 
DecisionTreeClassifier. html # sklearn. tree. DecisionTreeClassifier 可 以 知道 ,默认 配置 的 决策 树 模型 使 用 的 是 基尼 不 纯 性 (Gini impurity) 
作为 排序 特征 的 度量 指标 。 


第 2 章 基础 篇 ` sr: 


件 : 泰坦 尼克 号 沉船 事故 。 


图 2-7 信用 卡 申请 自动 审核 任务 的 决策 树 模型 


1912 年 ,当时 隶属 于 英国 的 世界 级 豪华 客轮 泰坦 尼克 


号 , 因 在 处 女 航行 中 不 幸 撞 上 北大 西洋 冰山 而 沉没 。 这 场 事故 使 得 1500 多 名 乘 
客 替 难 。 后 来 ,这 场 震惊 世界 的 惨剧 被 详细 地 调查 ,而 且 遇 难 乘 客 的 信息 也 逐渐 
被 披露 。 在 当时 的 救援 条 件 下 ,无 法 在 短 时 间 内 确认 每 位 乘客 生还 的 可 能 性 。 而 
今 ,许多 科学 家 试图 通过 计算 机 模拟 和 分 析 找 出 潜藏 在 数据 背后 的 生还 逻辑 。 下 


面 ,通过 代码 29 ,尝试 揭 开 这 尘封 了 100 多 年 的 数据 的 面纱 。 


| = 29, 泰坦 尼克 号 乘客 数据 查验 


>>># 导 入 pandas 用 于 数据 分 析 。 
>>> import pandas as pd 


>>># 利 用 pandas 的 read csv 模 块 直接 从 互联 网 收集 泰坦 尼克 号 乘客 数据 。 


>>> titanic=pd.read csv ('http://biostat.mc.vancerbi t .edu/wiki /pub/Main/DataSets/titanic. txt") 
>>> 4 观察 前 几 行 数据 ,可 以 发 现 ,数据 种 类 各 异 ,数值 型 .类 别 型 ,甚至 还 有 缺失 数据 。 


>>> titanic.head() 

|| |row.names | pclass | survived | name age (embarked |home.dest room ticket [boat |sex 

DEMEURE E. |, m 

i Montreal, PQ / 

iM2 ds 0 Alison. Miss Helen Loraine 2.0000 | Southampton saras C26 |NaN NaN |female 

| Montreal, PQ / 

i ist jo Allison, Mr Hudson Joshua Creighton [30.0000 | Southampton as on C26 |NaN |(135)]male 
Allison, Mrs Hudson J.C. (Bessie Montreal, PQ / 

‘Jala 1st jo litas aay 25.0000| Southampton | chestevile ON C26 |NaN — |NaN |female 

i Montreal, PQ / 

: Y L 1 

ias it | Alison, Master Hudson Trevor 0.8167 Southampton E ON C22 |nan |i |maie 


58 :Pyhm 机 器 学习 及 实 路 


>>># 使 用 pandas, 数 据 都 转 入 Pandas 独 有 的 catafrane 格 式 (二 维 数据 表格 ) ,直接 使 用 info(), 查 
看 数据 的 统计 特性 。 

>>> titanic.info (0 

< class 'pandas.core.frame.DataFrame'» 

Inté4Index: 1313 entries, 0 to 1312 

Tata colums (total 11 colums): 


row.nmes — 1313 nom mull int64 
pelass 1313 nen- mill cbject 

survived 1313 non- null intes 

rame 1313 nom- null cbject: 

age 633 nar null floaté4 

enbarked 821 nom- null cbject 

home.dest 754 nom- null cbject 

roan TI nor- mill cbject 

ticket 69 non- mull cbject 

boat 347 nom- mll cbject 

sex 1313 nar- mill abject 

dtypes: floate4(1), inte4 (2), dbject (8) 

memory usage: 123.1 KB _| 


代码 29 的 一 系列 输出 说 明 : 该 数据 共有 1313 条 乘客 信息 ,并 且 有 些 特 征 数据 是 完 
整 的 (如 pelass, name) ,有些 则 是 缺失 的 ;有 些 是 数值 类 型 的 ,有 些 则 是 字符 串 。 
* 编程 实践 : 比 起 之 前 使 用 过 的 数据 样 例 ,这 次 的 数据 年 代 更 加 久远 ,难免 会 有 信 
息 丢 失 和 不 完整 ;甚至 ,许多 数据 特征 还 没有 量化 。 因 此 ,在 使 用 决策 树 模型 进行 
训练 学 习 之 前 ,需要 对 数据 做 一 些 预 处 理 和 分 析 工 作 , 如 代码 30 所 示 。 


[ «9 30. 使 用 决策 树 模型 预测 泰坦 尼克 号 乘客 的 生还 情况 
>>># 机 器 学 习 有 一 个 不 太 被 初学 者 重视 并 且 耗 时 ,但 是 十 分 重要 的 一 环 一 一 特征 的 选择 ,这 个 
需要 基于 一 些 背 景 知识 。 根 据 我 们 对 这 场 事故 的 了 解 , sex, age, Pclass 这 些 特 征 都 很 有 可 能 是 决 
定 幸免 与 否 的 关键 因素 。 
>>> titanic[['pclass', 'age!, 'sex']] 
>>> titanic["survived'] 


>>># 对 当前 选择 的 特征 进行 探查 。 


>>>X.info() 


第 2 章 基础 篇 


<class 'pandas.core.frame.DataFrame'» 
Inté4Index: 1313 entries, 0 to 1312 
Data colums (total 3 colums) : 
pelass 1313 nar- null dbject 

age 633 nom- mill floates 

sex 1313 nen- mill d»ject 
dtypes: floaté4(1), d»ject (2) 

memory usage: 41.0+ KB 


>>># 借 由 上 面 的 输出 ,我们 设计 如 下 几 个 数据 处 理 的 任务 : 
>>>#1) age 这 个 数据 列 , 只 有 633 个 ,需要 补 完 。 
>>># 2) sex 与 pclass 两 个 数据 列 的 值 都 是 类 别 型 的 ,需要 转化 为 数值 特征 ,用 o ORE. 


>>># 首 先 我 们 补充 age 里 的 数据 ,使 用 平均 数 或 者 中 位 数 都 是 对 模型 偏离 造成 最 小 影响 的 策略 。 
»»»X['age'].fillna(X['age'] .mean(), irplace= True) 


>>># 对 补 完 的 数据 重新 探查 。 
>>>X.info() 

«class 'pandas.core. frame. DataFrame'> 
‘IntédIndex: 1313 entries, 0 to 1312 
Data colums (total 3 colums) : 
palass 1313 nar- mull cbject: 

age 1313 nom- null float64 
sex 1313 no- mull cbject: 
dtypes: floated (1), cbject (2) 

memory usage: 41.0+ KB 


>>># 由 此 得 知 ,age 特征 得 到 了 补 完 。 
>>># 数 据 分 割 。 
>>> from skleam.cross validation import train test split 


>>>X train, X test, y train, y test-train test split(X, y, test size- 0.25, randm state- 33) 


>>># 使 用 scikit- leamn.feature extraction 中 的 特征 转换 器 , 详 见 3.1.1.1 特 征 抽取 。 
>>> fram skleam. feature_extraction import DictVectorizer 


>>> vec= Dictvectorizer (sparse- False) 


>>># 转 换 特征 后 ,我们 发 现 凡 是 类 别 型 的 特征 都 单独 剥离 出 来 , 独 成 一 列 特征 ,数值 型 的 则 保持 
不 变 。 

>>>X_train= vec. fit_transform( train.to dict (orient= 'record')) 

>>> print vec. feature names - 

['age', 'pclass=1st', 'pclass-2nd', 'pclass-3rd', 'sex= female', 'sex-male'] 


>>> 同样 需要 对 测试 数据 的 特征 进行 转换 。 
>>>X_test= vec.transfom(X test.to dict (orient- 'rnecord')) 


>>># JA skleam.tree 中 导 人 决策 树 分 类 器 。 

>>> from sklearn.tree import DecisionTreeClassifier 
>>># 使 用 默认 配置 初始 化 决策 树 分 类 器 。 

>>> dtc- DecisionTreeClassifier () 

>>># 使 用 分 割 到 的 训练 数据 进行 模型 学 习 。 

>>> dtc.fit X train, y train) 


>>># 用 训练 好 的 决策 树 模型 对 测试 特征 数据 进行 预测 。 

>>> y_predict=dtc.predict (X test) _| 

* 性 能 测评 : 使 用 同样 用 于 分 类 任务 的 多 种 性 能 测评 指标 ,通过 代码 31 对 乘客 是 否 
生还 的 预测 结果 进行 评价 。 


[ s 31: 决策 树 模 型 对 泰坦 尼克 号 乘客 是 否 生还 的 预测 性 能 


>>># 从 skleam.metrics $À classification report, 
>>> from sklearn.metrics import classification report 


>>># 输 出 预测 准确 性 。 
>>> print dtc.score test, y test) 
>>># 输 出 更 加 详细 的 分 类 性 能 。 
>>> print classification report (y predict, y test, target names- ['died', 
'survived']) 
0. 781155015198 
precision recall fl- score ‘support 
died 0.91 0.78 0.84 236 
survived 0.58 0.80 0.67 E: 
avg / total 0.81 0.78 0.79 x9 _| 


代码 31 的 输出 表明 : 决策 树 模型 总 体 在 测试 集 上 的 预测 准确 性 约 为 78. 12% 。 详 细 
的 性 能 指标 进一步 说 明 ,该 模型 在 预测 遇难 者 方面 性 能 较 好 ; 却 需要 在 识别 生还 者 的 精确 
率 方面 下 功夫 。 
”特点 分 析 : 相 比 于 其 他 学 习 模型 ,决策 树 在 模型 描述 上 有 着 巨大 的 优势 。 决 策 树 
的 推断 多 辑 非常 直观 ,具有 清晰 的 可 解释 性 ,也 方便 了 模型 的 可 视 化 。 这 些 特性 
同时 也 保证 在 使 用 决策 树 模 型 时 ,是 无 须 考虑 对 数据 的 量化 甚至 标准 化 的 。 并 
且 , 与 前 一 节 K 近邻 模型 不 同 , 决 策 树 仍然 属于 有 参数 模型 ,需要 花费 更 多 的 时 
间 在 训练 数据 上 。 


2.1.1.6 集成 模型 (分 类 ) 


。 模型 介绍 : 常言 道 :“ 一 个 篇 笛 三 个 桩 ,一 个 好 汉 三 个 帮 ”。 集 成 (Ensemble) 分 类 
模型 便 是 综合 考量 多 个 分 类 器 的 预测 结果 ,从 而 做 出 决策 。 只 是 这 种 “综合 考量 ” 
的 方式 大 体 上 分 为 两 种 : 
一 种 是 利用 相同 的 训练 数据 同时 搭建 多 个 独立 的 分 类 模型 ,然后 通过 投票 的 方式 ,以 
少数 服从 多 数 的 原则 作出 最 终 的 分 类 决策 。 比 较 具有 代表 性 的 模型 为 随机 森林 分 类 器 
(Random Forest Classifier) , 即 在 相同 训练 数据 上 同时 搭建 多 棵 决策 树 (Decision Tree) 。 
然而 ,在 2.1.1.5 决策 树 一 节 提 到 过 ,一 株 标准 的 决策 树 会 根据 每 维特 征 对 预测 结果 的 影 
响 程度 进行 排序 ,进而 决定 不 同 特征 从 上 至 下 构建 分 裂 节点 的 顺序 ;如 此 一 来 ,所 有 在 随 
机 森林 中 的 决策 树 都 会 受 这 一 策略 影响 而 构建 得 完全 一 致 ,从 而 形 失 了 多 样 性 。 因 此 , 随 
机 森林 分 类 器 在 构建 的 过 程 中 ,每 一 棵 决策 树 都 会 放弃 这 一 固定 的 排序 算法 , 转 而 随机 选 
取 特 征 。 
另 一 种 则 是 按照 一 定 次 序 搭建 多 个 分 类 模型 。 这 些 模型 之 间 彼 此 存在 依赖 关系 。 
般 而 言 ,每 一 个 后 续 模 型 的 加 入 都 需要 对 现 有 集成 模型 的 综合 性 能 有 所 贡献 ,进而 不 断 提 
升 更 新 过 后 的 集成 模型 的 性 能 ,并 最 终 期 望 借助 整合 多 个 分 类 能 力 较 弱 的 分 类 器 ,搭建 出 
具有 更 强 分 类 能 力 的 模型 。 比 较 具 有 代表 性 的 当 属 梯度 提升 决策 树 (Gradient Tree 
Boosting) 。 与 构建 随机 森林 分 来 器 模型 不 同 ,这 里 每 一 棵 决策 树 在 生成 的 过 程 中 都 会 尽 
可 能 降低 整体 集成 模型 在 训练 集 上 的 拟 合 误差 。 
* 数据 描述 : 为 了 对 比 单一 决策 树 (Decision Tree) 与 集成 模型 中 随机 森林 分 类 器 
(Random Forest Classifier) 以 及 梯度 提升 决策 树 (Gradient Tree Boosting) fl] FE 
能 差异 ,下 面 依旧 使 用 泰坦 尼克 号 的 乘客 数据 。 

° 编程 实践 : 在 代码 32 中 .使 用 相同 的 训练 数据 与 测试 数据 ,并 利用 单一 决策 树 . 随 
机 森林 分 类 以 及 梯度 上 升 决策 树 ,3 种 模型 各 自 的 默认 配置 进行 初始 化 ,从事 预 
测 活动 。 
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[ 59 32. 集成 模型 对 泰坦 尼克 号 乘客 是 否 生还 的 预测 


>>># FA pandas, 并 且 重 命名 为 pa, 
>>> import pandas as pd 


>>># 通 过 互联 网 读 取 泰 坦 尼克 乘客 档案 ,并 存储 在 变量 titanic 中 。 
>>> titanic-pd.read csv('http://biostat mc.vanderbilt..edu/wiki /pub/Main/DataSets/titanic.txt') 


>>> +AT plass age LJ X sex 作 为 判别 乘客 是 否 能 够 生还 的 特征 。 
»»»X-titanic[['pclass', 'age', 'sex']] 
>>>y= titanic['survived] 


>>>#+ 对 于 缺失 的 年 龄 信息 ,我 们 使 用 全 体 乘客 的 平均 年 龄 代替 ,这 样 可 以 在 保证 顺利 训练 模型 
的 同时 , 尽 可 能 不 影响 预测 任务 。 
>>>X['age"] .£illna (X['age'] mean (), inplace- True) 


>>> + 对 原始 数据 进行 分 割 ,258 的 乘客 数据 用 于 测试 。 
>>> fran skleam.cross validation import train test split 
>>>X train, X test, y train, y test-train test split, y, test size- 0.25, random state= 33) 


>>># 对 类 别 型 特征 进行 转化 ,成 为 特征 向 量 。 

>>> from sklearn.feature extraction import DictVectorizer 

>>> vec- DictVectorizer (sparse= False) 

>>>X tmain-wec.fit transform(X train.to dict(orient- 'record')) 
>>>X test-vec.transform(X test.to dict (orient= 'record')) 


>>># 使 用 单一 决策 树 进行 模型 训练 以 及 预测 分 析 。 
>>> fram sklearn.tree import DecisionTreeClassifier 
>>> dtc- DecisionTreeClassifier () 

2»»dtc.fit(X train, y train) 

>>> dtc y pred- dtc.predict (X test) 


>>>+ 使 用 随机 森林 分 类 器 进行 集成 模型 的 训练 以 及 预测 分 析 。 
>>> fram sklearn.enserble import RandomEbrestClassifier 
>>> rfc- RandomborestClassifier () 


>>> rfc.fit x train, y train) 
>>>rfc y pred rfc.predict (X test) 


>>># 使 用 梯度 提升 决策 树 进行 集成 模型 的 训练 以 及 预测 分 析 。 

>>> fran skleam.ensenble import GradientBoostingclassifier 

>>> goc- GradientBoostingClassifier() 

>>> ghe. fit @ train, y train) 

»»»goc y pred- gbc. predict (X test) _| 


* 性 能 测评 : 代码 33 使 用 多 种 用 于 评价 分 类 任务 性 能 的 指标 ,在 测试 数据 集 上 对 比 
单一 决策 树 (Decision Tree) ,随机 森林 分 类 器 (Random Forest Classifier) 以 及 梯 
度 提升 决策 树 (Gradient Tree Boosting) 的 性 能 差异 。 


三 代码 33; 集成 模型 对 泰坦 尼克 号 乘客 是 否 生还 的 预测 性 能 


>>># 从 skleam.metrics 导 人 classification report, 
>>> fran sklearn.metrics import classification_report 


>>># 输 出 单一 决策 树 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 、 召 回 率 、 了 可 指标。 
>>> print "The accuracy of decision tree is', dtc.score(X test, y test) 
>>> print classification report (dtc_y pred, y test) 


>>> # $Ë tB BEL BR PA A E EFE WDE E 09 228 RE tE LSU I O AA E TE A R bn. 
>>> print "The accuracy of random forest classifier is', rfc.score(X test, y test) 
>>> print classification report (rfc y pred, y test) 


>>>+# 输 出 梯度 提升 决策 树 在 测试 集 上 的 分 类 准确 性 ,以 及 更 加 详细 的 精确 率 、 召 回 率 、 妃 指标 。 
>>>print "The accuracy of gradient tree boosting is', gbc.score X test, y test) 
>>> print classification report (gbc y pred, y test) 


The accuracy of decision tree is 0.781155015198 


precision recall fl- score ‘support 

0 0.91 0.78 0.84 236 
1 0.58 0.80 0.67 s 
329 


avg / total 0.81 0.78 0.79 
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‘The accuracy of randm forest classifier is 0.784194528875 
precision recall fl- score 


0 0.92 0.77 0.84 
1 0.57 0.81 0.67 
avg / total 0.82 0.78 0.79 


‘The accuracy of gradient tree boosting is 0.790273556231 
precision recall fl- score 


0 0.92 0.78 0.84 
1 0.58 0.82 0.68 
avg / total 0.83 0.79 0.80 


代码 33 的 输出 表明 : 在 相同 的 训练 和 测试 数据 条 件 下 ,仅仅 使 用 模型 的 默认 配置 ， 
梯度 上 升 决策 树 具 有 最 佳 的 预测 性 能 ,其 次 是 随机 森林 分 类 器 ,最 后 是 单一 决策 树 。 大 量 


在 其 他 数据 上 的 模型 实践 也 证 明了 上 述 结论 的 普 适 性 。 


- 般 而 言 , 工 业界 为 了 追求 更 加 


强劲 的 预测 性 能 ,经 常 使 用 随机 森林 分 类 模型 作为 基线 系统 (Baseline System) 9, 
。 特点 分 析 : 集成 模型 可 以 说 是 实战 应 用 中 最 为 常见 的 。 相 比 于 其 他 单一 的 学 习 
模型 ,集成 模型 可 以 整合 多 种 模型 ,或 者 多 次 就 一 种 类 型 的 模型 进行 建 模 。 由 于 
模型 估计 参数 的 过 程 也 同样 受到 概率 的 影响 ,具有 一 定 的 不 确定 性 ;因此 ,集成 模 
型 虽然 在 训练 过 程 中 要 耗费 更 多 的 时 间 , 但 是 得 到 的 综合 模型 往往 具有 更 高 的 表 


现 性 能 和 更 好 的 稳定 性 。 


2.1.2 回归 预测 


回归 问题 和 分 类 问题 的 区 别 在 于 : 其 待 预测 的 目标 是 连续 变量 ,比如 : 价格 、 降 水 量 
等 等 。 与 “2.1.1 分 类 学 习 " 节 的 介绍 方式 不 同 .这 里 不 会 对 回归 问题 的 应 用 场景 进行 横 
向 扩展 ;而 是 只 针对 一 个 “美国 波士顿 地 区 房价 预测 "的 经 典 回归 问题 进行 分 析 , 好 让 读者 


朋友 对 各 种 回归 模型 的 性 能 与 优 缺点 有 一 个 深入 的 比较 。 


O 拓展 小 贴 士 19: 读者 朋友 将 会 在 本 书 经 常见 到 基线 系统 的 说 法 ,通常 指 的 是 那些 使 用 经 典 模型 搭建 的 机 器 学 习 系 统 。 研 发 人 员 
每 提出 一 个 新 模型 ,都 需要 和 基线 系统 在 多 个 具有 代表 性 的 数据 集 上 进行 性 能 比较 的 测试 。 随 机 森林 分 类 模型 就 经 常 以 基线 系统 的 身份 


出 现在 科研 论文 ,甚至 公开 的 数据 竞赛 中 。 


第 2 章 基础 篇 ` 


2.1.2.1 线性 回归 器 


。 模型 介绍 : 在 "2. 1. 1.1 线性 分 类 器 ”" 节 中 ,重点 介绍 了 用 于 分 类 的 线性 模型 。 其 
中 为 了 便于 将 原本 在 实数 域 上 的 计算 结果 映射 到 (0,1) 区 间 , 引 入 了 逻辑 斯 蒂 函 
数 。 而 在 线性 回归 问题 中 ,由 于 预测 目标 直接 是 实数 域 上 的 数值 ,因此 优化 目标 
就 更 为 简单 , 即 最 小 化 预测 结果 与 真实 值 之 间 的 差异 。 
参考 式 (1), 当 使 用 一 组 m 个 用 于 训练 的 特征 向 量 生 — — x! x? eee > 和 其 对 应 
fij Ie LEER y =< y! ey! sy" > 时 ,我 们 希望 线性 回归 模型 可 以 最 小 二 乘 (Generalized 
Least Squares) 预 测 的 损失 L(w.5)。 如 此 一 来 ,线性 回归 器 的 常见 优化 目标 如 式 (13) 
所 示 。 


argmin L(w.b)— argmin S (f(w,x,b)— y*)* (43) 
同样 ,为 了 学 习 到 决定 模型 的 参数 (Parameters), 即 系数 w 和 截 距 5, 仍然 可 以 使 用 
-种 精确 计算 的 解析 算法 和 一 种 快速 的 随机 梯度 下 降 (Stochastic Gradient Descend) fii 
计算 法 了 。 我 们 会 在 编程 实践 中 向 各 位 介绍 如 何 使 用 它们 。 
。 数据 描述 :“ 美 国 波士顿 地 区 房价 预测 ”的 数据 描述 可 以 通过 代码 34 获得 : 


[ 59 34: 美国 波士顿 地 区 房价 数据 描述 


>>> JÁ skleam.datasets 导 人 波士顿 房价 数据 读 取 器 。 
>>> from sklearn.datasets import load boston 

>>># 从 读 取 房价 数据 存储 在 变量 boston 中 。 

>>> boston= load boston () 

>>>+# 输 出 数据 描述 。 

>>> print boston.DEScR: 

Nurber of Instances: 506 

Nuber of Attributes: 13 numeric/categorical predictive 
Median Value (attribute 14) is usually the target 


Attribute Information (in order): 
-ŒM per capita crime rate by town 
-0N proportion of residential land zoned for lots over 25,000 sq.ft. 


@ 拓展 小 贴 士 20: 事实 上 ,不 管 是 随机 梯度 上 升 (SGA) 还 是 随机 梯度 下 降 (SGD) ,都 隶属 于 用 梯度 法 选 代 渐进 估计 参数 的 过 程 。 梯 
度 上 升 用 于 目标 最 大 化 ,梯度 下 降 用 于 目标 最 小 化 。 在 线性 回归 中 ,我 们 会 接触 优化 目标 最 小 化 的 方程 。 


166: Pyha 机 器 学 习 及 实 中 


-MS — proportion of no retail business acres per town 

-ŒS Carles River dmy variable (1 if tract bounds river; 0 otherwise) 
-NK nitric axides concentration (parts per 10 million) 

-M average nurber of roams per dwelling 

-RE proportion of owner- occupied units built prior to 1940 
-DIS weighted distances to five Boston employment centres 

-RAD index of accessibility to radial highways 

-TX full- value property- tax rate per $ 10,000 

-PIRATIO ppil- teacher ratio by town 

-B 1000 (Bk — 0.63)^2 where Bk is the proportion of blacks by town 
-LSIAT % lower status of the population 

-MIV Median value of owner- occupied hams in $ 1000's 


Missing Attribute Values: None J 


我 们 节选 了 部 分 有 价值 的 用 于 数据 描述 的 输出 。 总 体 而 言 ,该 数据 共有 506 条 美国 
波士顿 地 区 房价 的 数据 ,每 条 数据 包括 对 指定 房屋 的 13 项 数值 型 特征 描述 和 目标 房价 。 
另外 ,该 数据 中 没有 缺失 的 属性 /特征 值 (Missing Attribute Values) ,更 加 方便 了 后 续 的 
分 析 。 接 下 来 “2.1.2 回归 预测 ” 节 所 有 的 模型 都 将 使 用 代码 35 中 分 割 出 的 训练 和 测试 
数据 。 


[ «59 35. 美国 波士顿 地 区 房价 数据 分 市 


>>># 从 skleam.cross validation 导入 数据 分 制 器 。 
>>> fram sklearn.cross validation import train test split 


>>> BA nmpy 并 重 命名 为 mp. 
>>> import numpy as mp 


>>> X= boston.data 
>>> y= boston. target 


>>># 随 机 采样 258 的 数据 构建 测试 样本 ,其余 作为 训练 样本 。 
>>>X train, X test, y train, y test-train test split(X, y, randan state-33, test_size= 0.25) 


>>># 分 析 回归 目标 值 的 差异 - 


>>> print "The max target. value is", np.max (boston.target) 
>>> print "The min target value is", np.min (bosten.target) 
>>> print "The average target value is", np.mean (boston.target) 


The mex target value is 50.0 
The min target value is 5.0 


The average target value is 22.5328063241 | 


不 过 在 上 述 对 数据 的 初步 查验 中 发 现 ,预测 目标 房价 之 间 的 差异 较 大 ,因此 需要 对 特 
征 以 及 目标 值 进行 标准 化 处 理 了 ,如 代码 36 所 示 。 


[ *= 36; 训练 与 测试 数据 标准 化 处 理 


>>># 从 skleam.preprocessing 导 人 数据 标准 化 模块 。 
>>> from sklearn.preprocessing import standardscaler 


>>># 分 别 初始 化 对 特征 和 目标 值 的 标准 化 器 。 
>>> ss X= Standardscaler() 
>>> ss_y= Standardscaler () 


>>># 分 别 对 训练 和 测试 数据 的 特征 以 及 目标 值 进行 标准 化 处 理 。 

>>>X train-ss X.fit transform(X train) 

>>>X test-ss X.transfomm(X test) 

>>>y train-ss y.fit transfomn(y train) 

»»»y test-ss y.transform(y test) E 


。 编程 实践 : 本 节 使 用 最 为 简单 的 线性 回归 模型 LinearRegression 和 SGDRegressor 分 
别 对 波士顿 房价 数据 进行 训练 学 习 以 及 预测 ,如 代码 37 所 示 。 
| 代码 37. 使 用 线性 回归 模型 LinearRegression 和 SGDRegressor 分 别 对 美国 波士顿 
地 区 房价 进行 预测 


>>># 从 skleam.linear model 导入 LinearRegression, 
>>> fran sklearn.linear model import LinearRegression 


第 2 章 基础 篇 ` ‘or: 


O RJ Mh 21; 也 许 有 读者 朋友 会 质疑 将 真实 房价 也 做 标准 化 处 理 的 做 法 。 事 实 上 ,尽管 在 标准 化 之 后 ,数据 有 了 很 大 的 变化 。 
但 是 我 们 依然 可 以 使 用 标准 化 器 中 的 inverse_transform 函数 还 原 真 实 的 结果 ;并 且 ,对 于 预测 的 回归 值 也 可 以 采用 相同 的 做 法 进行 还 原 。 
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sn s LinearRegressicn, 
>>> l= 

i 

>>> Ir.fit K train, y train) 

>>>+ 对 测试 数据 进行 回归 预测 。 

>>> 1r y predict- 1r.predict (X test) 


>>> # JÁ sklearn.linear model S À. SGTRegressor。 

>>> from sklearn.linear model import sciRegressor 

>>>#+ 使 用 默认 配置 初始 化 线性 回归 器 ScoRegressor. 

>>> sgdr= SGTRegressor () 

>>>+# 使 用 训练 数据 进行 参数 估计 。 

>>> sgdr.fit X train, y train) 

>>> + 对 测试 数据 进行 回归 预测 。 

>>>sgdr y predict- sqdr.predict X test) 到 | 


° 性 能 测评 : 不 同 于 类 别 预测 ,我 们 不 能 苛求 回归 预测 的 数值 结果 要 严格 地 与 真实 
值 相同 。 一 般 情况 下 ,我 们 希望 衡量 预测 值 与 真实 值 之 间 的 差距 。 因 此 ,可 以 通 
过 多 种 测评 函数 进行 评价 。 其 中 最 为 直观 的 评价 指标 包括 ,平均 绝对 误差 (Mean 
Absolute Error,MAE) 以 及 均 方 误差 (Mean Squared Error, MSE) ,因为 这 也 是 线 
性 回归 模型 所 要 优化 的 目标 。 
假设 测试 数据 共有 mm 个 目标 数值 y =< y! y^ oe" 二 ,并 且 记 y 为 回归 模型 的 预 
测 结果 ,那么 具体 计算 MAE 的 步骤 如 式 (14) 与 式 (15) 所 示 。 


$8. = D | y'—5| (14) 
MAE = SS. (15) 
m 


而 MSE 的 计算 方法 如 式 (16) 和 式 (17) 所 示 。 
SSw = 53 G= py (26) 
= 


SSwoe 


然而 , 差 值 的 绝对 值 或 者 平方 ,都 会 随 着 不 同 的 预测 问题 而 变化 巨大 ,欠缺 在 不 同 问 
题 中 的 可 比 性 。 因 此 ,我 们 要 考虑 到 测评 指标 需要 具备 某 些 统计 学 含义 。 类 似 于 分 类 问 
题 评价 中 的 准确 性 指标 ,回归 问题 也 有 R-squared 这 样 的 评价 方式 , 既 考 量 了 回归 值 与 真 


MSE 一 (17) 


实 值 的 差异 ,同时 也 兼顾 了 问题 本 身 真 实 值 的 变动 。 假 设 f(x') 代表 回归 模型 根据 特征 
向 量 z: 的 预测 值 ,那么 R-squared 具体 的 计算 如 式 (18) 与 式 (19) 所 示 。 


$8, = 2) Co — f(x)» a8) 
家 
R=1 SS (19) 


tot 


其 中 SS 代表 测试 数据 真实 值 的 方差 (内 部 差异 ); SS. 代表 回归 值 与 真实 值 之 间 的 平方 
差异 (回归 差异 )。 所 以 在 统计 含义 上 ,R-squared 用 来 衡量 模型 回归 结果 的 波动 可 被 真 
实 值 验证 的 百分比 ,也 暗示 了 模型 在 数值 回归 方面 的 能 力 。 

下 面 的 代码 不 仅 展示 了 如 何 使 用 Scikit-learn 自 带 的 上 述 三 种 回归 评价 模块 ,同时 还 
介绍 了 调 取 R-squared 评价 函数 的 两 种 方式 。 


EN 38. 使 用 三 种 回归 评价 机 制 以 及 两 种 调用 R-squared 评价 模块 的 方法 ,对 
本 节 模 型 的 回归 性 能 做 出 评价 


>>># 使 用 LinearRegression 模 型 自 带 的 评估 模块 ,并 输出 评估 结果 。 
>>> print "The value of default measurement of LinearRegression is', lr.score(X test, y test) 


>>> 从 skleam metrics {KKA r2 score,mean squared error Ë) X mean absoluate error 用 于 回归 
性 能 的 评估 。 
>>> from skleam.metrics import r2 score, mean squared error, mean absolute error 


>>> EHI r2 score 模 块 , 并 输出 评估 结果 。 
>>> print "Ihe value of R- squared of LinearRegression is', r2 score(y test, lr y predict) 


>>># 使 用 mean. squared. error 模 块 ,并 输出 评估 结果 。 
>>> print "The mean squared error of LinearRegression is', mean squared error(ss y.inverse transform 
(y test), ss y.inverse transform(r y predict)) 


>>> {ËH mean absolute error 模 块 ,并 输出 评估 结果 。 
>>> print "The mean absoluate error of LinearRegressicn is', mean_absolute_error (ss_y. inverse_ 
transfomm(y test), ss y.inverse transfom(lr y predict)) 


‘The value of default measurement of LinearRegression is 0.6763403831 
The value of R- squared of LinearRegression is 0.6763403831 

‘The mean squared error of LinearRegression is 25.0969656921 

‘The mean absoluate error of LinearRegression is 3.5261239964 


>>># 使 用 SGDRegressor 模 型 自 带 的 评估 模块 ,并 输出 评估 结果 。 
>>> print “The value of default measurement of SRegressor is', sgdr.score(X test, y test) 


>>># 使 用 r2 score 模块 ,并 输出 评估 结果 。 
>>> print “The value of R- squared of SSTRegressor is', r2 score(y test, sgdr y predict) 


>>># 使 用 meon. squared. error 模 块 ,并 输出 评估 结果 。 
>>> print. "The mean squared error of STRegressor is', mean squared error(ss_y.inverse_transfonn(y_ 
test), ss y.inverse transform(sgdr y predict)) 


>>># 使 用 mean absolute error 模 块 ,并 输出 评估 结果 。 
>>> print "The mean absoluate error of SGiRegressor is', mean absolute error(ss y.inverse transform 
(y test), ss y.inverse transform(sgdr y predict)) 


‘The value of default measurement of SSTRegressar is 0.659853975749 
The value of R- squared of Sa:Fegressor is 0.659853975749 

The mean squared error of SciRegressor is 26.3753630607 

‘The mean absoluate error of SGiRegressor is 3.55075990424 


- 


通过 代码 38 的 输出 ,我们 知道 两 种 调用 R-squared 的 方式 是 等 价 的 。 后 续 有 关 回 归 
模型 的 评价 ,我 们 都 会 采用 第 一 种 方式 , 即 回归 模型 白带 的 评估 模块 来 完成 性 能 的 评估 。 
另外 ,也 可 以 看 出 尽管 三 种 评价 方式 R-squared, MSE 以 及 MAE 在 具体 评估 结果 上 不 
同 ,但 是 在 评价 总 体 优 劣 程度 的 趋势 上 是 一 致 的 。 

虽然 ,使 用 随机 梯度 下 降 估计 参数 的 方法 SGDRegressor 在 性 能 表现 上 不 及 使 用 解 
析 方 法 的 LinearRegression; 但 是 如 果 面 对 训练 数据 规模 十 分 庞大 的 任务 ,随机 梯度 法 不 
论 是 在 分 类 还 是 回归 问题 上 都 表现 得 十 分 高 效 , 可 以 在 不 损失 过 多 性 能 的 前 提 下 ,节省 大 
量 计算 时 间 。 请 读者 在 今后 的 使 用 中 ,根据 预测 任务 的 数据 规模 ,参考 图 2-8 选择 合适 的 
模型 。 根 据 Scikit-learn 官网 的 建议 ,如 果 数 据 规模 超过 10 万 ,推荐 使 用 随机 梯度 法 估计 


scikit-learn 
algorithm cheat-sheet 


图 2-8 Scikit-learn 工具 包 模 型 使 用 建议 (图 片 来 源 于 http://scikit-learn. org/stable/tutorial/machine 
_learning_map/index. html) ( 见 彩 图 ) 


* 特点 分 析 : 线性 回归 器 是 最 为 简单 `. 易 用 的 回归 模型 。 正 是 因为 其 对 特征 与 回归 
目标 之 间 的 线性 假设 ,从 某 种 程度 上 说 也 局 限 了 其 应 用 范围 。 特 别 是 ,现实 生活 
中 的 许多 实例 数据 的 各 个 特征 与 回归 目标 之 间 . 绝 大 多 数 不 能 保证 严格 的 线性 关 
系 。 这 一 点 ,在 “2. 1.1.5 决策 树 ” 节 中 想必 已 有 感受 。 尽 管 如 此 ,在 不 清楚 特征 
之 间 关 系 的 前 提 下 ,我 们 仍然 可 以 使 用 线性 回归 模型 作为 大 多 数 科 学 试验 的 基线 
系统 (Baseline system) 。 


2.1.2.2 支持 向 量 机 (回归 ) 


。 模型 介绍 : 想必 读者 朋友 已 经 对 2.1.1.2 支持 向 量 机 (分 类 ) 中 提 到 的 分 类 模型 
的 作用 机 理 有 所 了 解 。 本 节 介 绍 的 支持 向 量 机 (回归 ) 也 同样 是 从 训练 数据 中 选 
取 一 部 分 更 加 有 效 的 支持 向 量 ,只 是 这 少 部 分 的 训练 样本 所 提供 的 并 不 是 类 别 目 
标 ,而 是 具体 的 预测 数值 。 

t 编程 实践 : 继续 使 用 “2. 1. 2. 1 线性 回归 器 中 分 割 处 理 好 的 训练 和 测试 数据 ; 同 


时 在 本 书 中 第 一 次 修改 模型 初始 化 的 默认 配置 ,以 求 在 代码 39 中 展现 不 同 配置 


下 模型 性 能 的 差异 ,也 为 后 续 章 节 要 介绍 的 内 容 做 个 铺垫 。 


[rs 39, 使 用 三 种 不 同 核 函数 配置 的 支持 向 量 机 回归 模型 进行 训练, 并 且 分 别 对 


测试 数据 做 出 预测 


>>># 从 skleam.sm 中 导 人 支持 向 量 机 (回归 ) 模 型 。 
>>> from sklearn.svm import SVR 


>>># 使 用 线性 核 函 数 配 置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 
>>> linear svr- SVR(kernel- 'linear') 

>>> linear svr.fit(X train, y train) 

>>> linear svr y predict- linear svr.predict(X test) 


>>>+ 使 用 多 项 式 核 函 数 配 置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 


>>> poly_svr=SVR(kemel= 'poly') 
»»»poly svr.fit(X train, y train) 
»»»poly svr y predict-poly svr.predict(X test) 


>>># 使 用 径 向 基 核 函数 配置 的 支持 向 量 机 进行 回归 训练 ,并 且 对 测试 样本 进行 预测 。 


>>> rbf_svr= SVR (kemel= 'rbf') 
>>> rbf_svr.fit X train, y train) 
>>> rbf_svr y predict-rbf svr.predict X test) 


= 


* 性 能 测评 : 接 下 来 将 继续 在 代码 40 中 ,就 不 同 核 函数 配置 下 的 支持 向 量 机 回归 模 
型 在 测试 集 上 的 回归 性 能 做 出 评估 。 通 过 三 组 性 能 测评 我 们 发 现 ,不 同 配置 下 的 
模型 在 相同 测试 集 上 ,存在 着 非常 大 的 性 能 差异 。 并 且 在 使 用 了 径 向 基 (Radial 
basis function) 核 函数 对 特征 进行 非 线性 映射 之 后 ,支持 向 量 机 展现 了 最 佳 的 回 


归 性 能 。 


[ «59 40; 对 三 种 核 函 数 配 置 下 的 支持 向 量 机 回归 模型 在 相同 测试 集 上 进行 性 能 


评估 


>>># 使 用 R- squared. MSE 和 ME 指标 对 三 种 配置 的 支持 向 量 机 (回归 ) 模 型 在 相同 测试 集 上 进行 


性 能 评估 。 
>>> fram skleam.metrics import r2 score, mean absolute error, mean squared error 


>>> print 'R- squared value of linear SWR is', linear svr.score(X test, y test) 

»»»print "The mean squared error of linear SWR is', mean squared error(ss y.inverse transfom(y - 
test), ss y.inverse transfomm(linear svr y predict)) 

>>> print. “The mean absoluate error of linear SVR is', mean absolute error(ss y.inverse transform(y_ 
test), ss y.inverse transfomm(linear svr y predict)) 

R- squared value of linear SVR is 0.65171709743 

The mean squared error of linear SVR is 26.6433462972 

‘The mean absoluate error of linear SVR is 3.53398125112 


>>> print 'R- squared value of Poly SVR is', poly svr.score(X test, y test) 

>>> print "The mean squared of Poly SVR is', mean squared error (ss_y. inverse_transform(y_ 
test), ss y.inverse transfomm(poly svr y predict)) 

>>> print "The mean absoluate error of Poly SVR is', mean absolute error(ss y.inverse transform(y_ 
test), ss y.inverse transform(poly svr y predict)) 

R- squared value of Poly SVR is 0.404454056003 

The mean squared error of Poly SVR is 46.179403314 

‘The mean absoluate error of Poly SVR is 3.75205926674 


»»»print 'R- squared value of FBF SVR is', rbf svr.score(X test, y test) 

>>> print "The mean squared error of RBF SVR is', mean squared error(ss y.inverse transfom(y test), 
Ss y.inverse transform(rbf svr y predict)) 

>>> print "The mean absoluate of FBF SVR is', mean absolute error(ss y.inverse transform(y - 
test), ss y.inverse transform(rbf svr y predict)) 

R- squared value of RBF SVR is 0.756406891227 

‘The mean squared error of FEF SVR is 18.888 8 

‘The mean absoluate error of RBF SVR is 2.607563297198 N 


。 特点 分 析 : 本 节 首 次 向 读者 展示 了 不 同 配置 模型 在 相同 数据 上 所 表现 的 性 能 差 
异 。 特 别 是 除了 2. 1. 1. 2 节 支 持 向 量 机 (分 类 ) 模 型 里 曾经 提 到 过 的 特点 之 外 ,该 
系列 模型 还 可 以 通过 配置 不 同 的 核 函 数 ? 来 改变 模型 性 能 。 因 此 ,建议 读者 在 使 
用 时 多 尝试 几 种 配置 ,进而 获得 更 好 的 预测 性 能 。 


四 ”拓展 小 贴 士 22: 核 函 数 是 一 项 非常 有 用 的 特征 映射 技巧 ,同时 在 数学 描述 上 也 略为 复杂 。 因 此 本 书 不 做 过 度 引申 。 简 单一 些 理 
解 , 便 是 通过 某 种 函数 计算 ,将 原 有 的 特征 映射 到 更 高 维度 的 空间 ,从 而 尽 可 能 达到 新 的 高 维度 特征 线性 可 分 的 程度 ,如 图 2-9 所 示 。 结 合 
支持 向 量 机 的 特点 ,这 种 高 维度 线性 可 分 的 数据 特征 恰好 可 以 发 挥 其 模型 优势 。 


Input Space Feature Space 
图 2-9 HARER $9 将 线性 不 可 分 的 低 维 输入 ,映射 到 高 维 可 分 的 
新 特征 空间 ,图 片 摘自 于 互联 网 0( 见 彩 图 ) 


2.1.2.3 K 近邻 (回归 ) 


° 模型 介绍 : 在 2.1.1.4 天 近邻 (分 类 ) 中 提 到 了 这 类 模型 不 需要 训练 参数 的 特点 。 
在 回归 任务 中 ,K 近邻 (回归 ) 模 型 同样 只 是 借助 周围 K 个 最 近 训 练 样本 的 目标 
数值 ,对 待 测 样本 的 回归 值 进行 决策 。 自 然 , 也 衍生 出 衡量 待 测 样 本 回归 值 的 不 
同方 式 , 即 到 底 是 对 K 个 近邻 目标 数值 使 用 普通 的 算术 平均 算法 ,还 是 同时 考虑 
距离 的 差异 进行 加 权 平均 。 因 此 ,本 节 也 初始 化 不 同 配置 的 K 近邻 (回归 ) 模 型 


来 比较 回归 性 能 的 差异 。 
° 编程 实践 : 代码 41 展示 了 如 何 使 用 两 种 不 同 配置 的 K 近邻 回归 模型 对 美国 波 士 
顿 房价 数据 进行 回归 预测 。 


[| men 使 用 两 种 不 同 配置 的 K 近邻 回归 神 型 对 美国 波士顿 房价 数据 进行 
回归 预测 


>>> JÁ skleam.neighbors A NeighborRegressor(K 近 邻 回归 器 ) 。 
>>> fram skleam.neighbors import KNeighborsRegressor 


>>>#+ 初 始 化 K 近 邻 回 归 器 ,并 且 调 整 配置 ,使 得 预测 的 方式 为 平均 回归 : weights 'uniform', 
>>>uni_knr= FNeighborsRegressor (weights= 'uniform') 

>>>uni_knr.fit X train, y train) 

»»»uni knr y predict-uni knr.predict(X test) 


>>>4+ 初 始 化 K 近 邻 回归 器 ,并 且 调 整 配置 ,使 得 预测 的 方式 为 根据 距离 加 权 回 归 : weights- 
'distance', 


© http://pt. egg-life. net/article/157687 


>>> dis knr- kieichborssegressor (eights "distance" 
>>>dis knr.fit(X train, y train) 
>>>dis knr y predict-dis knr.predict(X test) | 


* 性 能 测评 : 接 下 来 我 们 将 继续 使 用 代码 42, 就 不 同 回归 预测 配置 下 的 K 近邻 模 
型 进行 性 能 评估 。 其 输出 表明 : 相 比 之 下 ,采用 加 权 平均 的 方式 回归 房价 具有 更 
好 的 预测 性 能 。 


[ 59 42: 对 两 种 不 同 配置 的 K 近邻 回归 模型 在 美国 波士顿 房价 数据 上 进行 预测 
i 性 能 的 评估 


>>> # lË Hl R- sqnared.MEE 以 及 ME 三 种 指标 对 平均 回归 配置 的 K 近 邻 模型 在 测试 集 上 进行 性 能 评 
估 。 

>>> print 'R- squared value of uniform weighted KNeighorRegression:', uni knr.score(X test, y test) 
>>> print "The mean squared error of uniform- weighted KNeighorRegression:', mean squared error (ss_ 
y-inverse transfomm(y test), ss_y.inverse_transform(uni_knr_y predict)) 

>>> print "The mean absoluate error of uniform- weighted KNeighorRegression', mean absolute error (ss 
.y-inverse transfomm(y test), ss y.inverse transform(uni knr y predict)) 


R- squared value of uniform- weighted KNeighorRegression: 0.690345456461 
‘The mean squared error of uniform- weighted KNeighorRegression: 24.0110141732 
‘The mean absoluate error of unifomn- weighted KNeighorRegression 2.96803149606 


>>> + f# HI R- sqnared\MSE 以 及 ME 三 种 指标 对 根据 距离 加 权 回归 配置 的 K 近 邻 模型 在 测试 集 上 进 
行 性 能 评估 。 

>>> print 'R- squared value of distance- weighted KNeighorRegression:', dis knr.score(X test, y test) 
>>> print "The mean squared error of distance- weighted KNeighorRegression:', mean squared error (ss_ 
y-inverse_transform(y test), ss y.inverse transformm(dis knr y predict)) 

>>> print "The mean absoluate error of distance- weighted KNeighorRegression:', mean absolute error 
(ss y.inverse transform(y test), ss y.inverse transform(dis knr y predict)) 


R- squared value of distance- weighted KNeighorRegression: 0.719758997016 
‘The mean squared error of distance- weighted KNeighorRegressicn: 21.7302501609 i 
‘The mean absoluate error of distance- weighted KNeighorRegression: 2.80505687851 J 


° 特点 分 析 : K 近邻 (回归 ) 与 K 近邻 (分 类 ) 一 样 , 均 属于 无 参数 模型 (Nonparametric 
model) ,同样 没有 没有 参数 训练 过 程 。 但 是 由 于 其 模型 的 计算 方法 非常 直观 , 因 
此 深 受 广大 初学 者 的 喜爱 。 本 节 讨论 了 两 种 根据 数据 样本 的 相似 程度 预测 回归 
值 的 方法 ,并 且 验 证 采用 K 近邻 加 权 平 均 的 回归 策略 可 以 获得 较 高 的 模型 性 能 ， 
供 读者 参考 。 


2.1.2.4 回归 树 


模型 介绍 : 回归 树 在 选择 不 同 特征 作为 分 裂 节点 的 策略 上 ,与 2. 1. 1. 5 决策 树 的 
思路 类 似 。 不 同 之 处 在 于 ,回归 树叶 节点 的 数据 类 型 不 是 离散 型 ,而 是 连续 型 。 
决策 树 每 个 叶 节点 依照 训练 数据 表现 的 概率 倾向 决定 了 其 最 终 的 预测 类 别 ; 而 回 
归 树 的 叶 节点 却 是 一 个 个 具体 的 值 ,从 预测 值 连续 这 个 意义 上 严格 地 讲 ,回归 树 
不 能 称 为 “回归 算法 ”。 因 为 回归 树 的 叶 节点 返回 的 是 “一 团 ? 训 练 数 据 的 均值 ,而 
不 是 具体 的 、 连 续 的 预测 值 。 

编程 实践 : 在 本 节 使 用 Scikit-learn 中 的 DecisionTreeRegressor 对 “美国 波士顿 
房价 ”数据 进行 回归 预测 ,如 代码 43 所 示 。 


[ «9 43. 使 用 回归 树 对 美国 波士顿 房价 训练 数据 进行 学 习 , 并 对 测试 数据 进行 预测 


>>># 从 skleam.tree 中 导入 DecisicnTresRegressor。 

>>> fram skleam.tree import DecisionTreeRegressor 

>>>+ 使 用 默认 配置 初始 化 DecisicriTreenegressor, 

>>> dtr= DecisionTreeRegressor () 

>>># 用 波士顿 房价 的 训练 数据 构建 回归 树 。 

>>> dtr.fit@ train, y train) 

>>># 使 用 默认 配置 的 单一 回归 树 对 测试 数据 进行 预测 ,并 将 预测 值 存储 在 变量 dr_y_ 
predict 中。 

>>> dtr y predict- dtr.predict (X test) | 


° 性 能 测评 : 然后 在 代码 44 中 ,对 默认 配置 的 回归 树 在 测试 集 上 的 性 能 做 出 评估 。 
并 且 , 该 代码 的 输出 结果 优 于 2. 1. 2. 1 线性 回归 器 一 节 LinearRegression 与 
SGDRegressor 的 性 能 表现 。 因 此 ,可 以 初步 判断 “美国 波士顿 房价 预测 问题 的 


特征 与 目标 值 之 间 存 在 一 定 的 非 线 性 关系 。 


[Re 4 ， 对 单一 回归 桂 模型 在 美国 波士顿 房价 测试 数据 上 的 预测 性 能 进行 评估 
>>># 使 用 R- squared, ME 以 及 ME 指标 对 默认 配置 的 回归 树 在 测试 集 上 进行 性 能 评估 。 
>>> print 'R- squared value of DecisionTreeRegressor:', dtr.score(X test, y test) 
>>> print 'The mean squared error of DecisionTreeRegressor:', mean squared error(ss y.inverse - 
transfomm(y test), ss y.inverse transfomm(dtr y predict)) 
>>> print “The mean absoluate error of DecisionTreeRegressor:', mean absolute error(ss y.inverse 
transfomm(y test), ss y.inverse transfomm(dtr y predict)) 
R- squared value of DecisicnTreeRegressar: 0.694084261963 
The mean squared error of DecisionfreeRegressor: 23.7211023622 
‘The mean absoluate error of DecisicrTreeRegressor: 3.14173228346 J 


。 特点 分 析 : 在 系统 地 介绍 了 决策 (分 类 ) 树 与 回归 树 之 后 ,可 以 总 结 这 类 树 模型 的 
优点 : 四 树 模型 可 以 解决 非 线性 特征 的 问题 ; 四 树 模型 不 要 求 对 特征 标准 化 和 统 
一 量化 , 即 数 值 型 和 类 别 型 特征 都 可 以 直接 被 应 用 在 树 模型 的 构建 和 预测 过 程 
中 ; 加 因为 上 述 原因 , 树 模型 也 可 以 直观 地 输出 决策 过 程 ,使 得 预测 结果 具有 可 
解释 性 。 

同时 , 树 模型 也 有 一 些 显 著 的 缺陷 : @ 正 是 因为 树 模型 可 以 解决 复杂 的 非 线 
性 拟 合 问题 ,所 以 更 加 容易 因为 模型 搭建 过 于 复杂 而 形 失 对 新 数据 预测 的 精度 
( 泛 化 力 ); 回 树 模型 从 上 至 下 的 预测 流程 会 因为 数据 细微 的 更 改 而 发 生 较 大 的 
结构 变化 ,因此 预测 稳定 性 较 差 ; 四 依托 训练 数据 构建 最 佳 的 树 模型 是 NP 难 问 
题 , 即 在 有 限时 间 内 无法 找到 最 优 解 的 问题 ,因此 我 们 所 使 用 类 似 贪 禁 算法 的 解 
法 只 能 找到 一 些 次 优 解 , 这 也 是 为 什么 我 们 经 常 借助 集成 模型 ,在 多 个 次 优 解 中 
寻觅 更 高 的 模型 性 能 。 


2.1.2.5 集成 模型 (回归 ) 


° 模型 介绍 : 在 “2.1.1.6 集成 模型 (分 类 )" 节 中 ,曾经 探讨 过 集成 模型 的 大 致 类 型 
和 优势 。 这 一 节 除 了 继续 使 用 普通 随机 森林 和 提升 树 模型 的 回归 器 版 本 之 外 ,还 
要 补充 介绍 随机 森林 模型 的 另 一 个 变种 : 极端 随机 森林 (Extremely Randomized 
Trees) 。 与 普通 的 随机 森林 (Random Forests) 模 型 不 同 的 是 ,极端 随机 森林 在 每 
当 构 建 一 棵 树 的 分 裂 节点 Cnode) 的 时 候 , 不 会 任意 地 选取 特征 ;而 是 先 随机 收集 

-部 分 特征 ,然后 利用 信息 炉 (Information Gain) 和 基尼 不 纯 性 (Gini Impurity) 等 
指标 挑选 最 佳 的 节点 特征 。 
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` 编程 实践 : 本 节 将 使 用 Scikirlearn 中 三 种 集成 回归 模型 , 即 RandomForestRegressor、 
ExtraTreesRegressor 以 及 GradientBoostingRegressor 对 “美国 波士顿 房价 ”数据 
进行 回归 预测 ,如 代码 45 所 示 。 


| 代码 45. 使 用 三 种 集成 回归 模型 对 美国 波士顿 房价 训练 数据 进行 学 习 , 并 对 测试 
数据 进行 预测 
> > > # 从 skleam. ensemble 中 导 À FandomgorestRegressor、 ExtraTreesGressor 以 及 
GradientBoostingRegressor. 
>>> fran skleam.ensanble import RandamForestRegressor, ExtraTreesRegressor, 
" N 


>>># 使 用 RarncrmEorestFegressor 训练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 rfr y_ 
predict rp , 

>>> rfr- RandaforestRegressor () 

>>> rfr.fit X train, y train) 

>>> rfr y predict- rfr.predict (X test) 


>>> + 使 用 ExtraTreespegressor 训练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 etr_y_ 
predict rp , 

>>> etr- ExtraTreesRegressor () 

»»»etr.fit(X train, y train) 

>>> etr y predict- etr.predict (X test) 


>>># 使 用 GradientBoostingRegressor 训 练 模型 ,并 对 测试 数据 做 出 预测 ,结果 存储 在 变量 gor y - 
Fredict 中 。 

>>> dor- GradientBoostingRegressor () 

>>> gor.fit X train, y train) 

»»»gor y predict- gor.predict(X test) _ | 


。 性 能 测评 ;同时 ,还 可 以 使 用 代码 46 对 上 述 三 种 集成 回归 模型 在 “波士顿 房价 " 数 
据 的 预测 能 力 进 行 评估 ,比较 它们 性 能 上 的 差异 。 
[RB 46: 对 三 种 集成 回归 模型 在 美国 波士顿 房价 测试 数据 上 的 回归 预测 性 能 
: 进行 评估 
>>> HË R- squared, ME 以 及 MBE 指标 对 默认 配置 的 随机 回归 森林 在 测试 集 上 进行 性 能 评估 。 


>>> print 'R- squared value of RandarForestRegressor:', rfr.score(X test, y test) 

>>> print 'The mean squared error of RandomForestRegressor:', mean squared error(ss y.inverse _ 
transform(y test), ss y.inverse transform(rfr y predict)) 

>>> print “The mean absoluate error of RandanForestRegressor:', mean absolute error(ss y.inverse - 
transfamm(y test), ss y.inverse transfomm(rfr y predict)) 


Re squared value of FandamForestRegressor: 0.802399786277 
‘The mean squared error of FandanForestRegressor: 15.322176378 
‘The mean absoluate error of RandomforestRegressor: 2.37417322835 


>>># 使 用 R- squared, ME 以 及 ME 指标 对 默认 配置 的 极端 回归 森林 在 测试 集 上 进行 性 能 评估 。 
>>> print 'R- squared value of ExtraTreesRegessor:', etr.score(X test, y test) 

>>> print 'The mean squared error of ExtraTreesRegessor:', mean squared error(ss y.inverse - 
transform(y test), ss y.inverse transfomm(etr y predict)) 

>>> print 'The mean absoluate Of ExtraTreesRegessor:', mean absolute error(ss y.inverse - 
transform(y test), ss y.inverse transfomm(etr y predict)) 


>>># 利 用 训练 好 的 极端 回归 森林 模型 ,输出 每 种 特征 对 预测 目标 的 贡献 度 。 
>>> print rp.sort (zip(etr.feature inportances , bosten.feature names), axis- 0) 


R- squared value of ExtraTreesRegessor: 0.81953245067 
‘The mean squared error of ExtraTreesRegessor: 13.9936874016 
‘The mean absoluate error of ExtraTreesRegessor: 2.35681889764 


[["0.00197153649824' 'AGE'] 
["0.0121265798375' 'B'] 
["0.0166147338152' 'CHAS"] 
["0.0181685042979' 'CRIM'] 
["0.0216752406979' "DIS'] 
["0.0230936940337' "INDUS" ] 
["0.0244030043403' 'ISTAT"] 
["0.0281224515813' "NOK'] 
["0.0315825286843' 'PIRRTTO'] 
["0.0455441477115' 'FAD'] 
["0.0509648681724" 'RM'] 


['0.355492216395' "TAX'] 
[*0.370240493935' 'ZN']] 


>>> HEJ R- squared, MSE 以 及 ME 指标 对 默认 配置 的 梯度 提升 回归 树 在 测试 集 上 进行 性 能 评估 。 
>>> print. 'R- squared value of GradientBoostingRegressor:', gor.score(X test, y test) 
>>> print "Ihe mean squared error of GradientBoostingRegressor:', mean squared error (ss_y.inverse_ 


transfomm(y test), ss y.inverse transform(gor y predict)) 


>>> print “The mean absoluate error of GradientBoostingRegressor:', mean absolute error(ss y.inverse 


_transfomm(y test), ss y.inverse transfomm(gor y predict)) 


R- squared value of GradientBoostingRegressor: 0.842602871434 


‘The mean squared error of GradientBoostingRegressor: 12.2047771094 
‘The mean absoluate error of GradientBoostingRegressor: 2.28597618665 


| 


° 特点 分 析 : 许多 在 业界 从 事 商业 分 析 系 统 开 发 和 搭建 的 工作 者 更 加 青睐 集成 模 
型 ,并 且 经 常 以 这 些 模 型 的 性 能 表现 为 基准 ,与 新 设计 的 其 他 模型 性 能 进行 比 对 。 
虽然 这 些 集成 模型 在 训练 过 程 中 要 耗费 更 多 的 时 间 ,但 是 往往 可 以 提供 更 高 的 表 


若是 对 我 们 在 “2. 1. 2 回归 预测 " 节 所 有 介绍 过 的 模型 在 “美国 波士顿 房价 预测 "问题 


现 性 能 和 更 好 的 稳定 性 。 


上 的 性 能 进行 排序 比较 ,也 可 以 发 现 使 用 非 线性 回归 树 模型 ,特别 是 集成 模型 ,能 够 取得 
更 高 的 性 能 表现 ,如 表 2-1 所 示 。 


R21 多 种 经 典 回归 模型 在 “美国 波士顿 房价 预测 "问题 的 回归 预测 能 力 排名 


Rank Regressors Resquared MSE | MAE 
1 GradientBoostingRegressor 0. 8426 12.20 | 2.29 
2 ExtraTreesRegressor 0. 8195 13.99 | 2.36 
3 RandomForestRegressor 0. 8024 15.32 | 2.37 
4 SVM Regressor(RBF Kernel) 0. 7564 18.89 | 2.61 
5 KNN Regressor (Distance-weighted) 0. 7198 21:73 | aa 
6 — | DecisionTreeRegressor 0.6941 23.72 | 3.14 
7 KNN Regressor (Uniform-weighted) 0.6903 24.0 | 2.97 


续 表 
Rank Regressors R-squared MSE MAE 
8 LinearRegression 0.6763 25.10 3.53 
9 SGDRegressor 0. 6599 26.38 3.55 
10 SVM Regressor (Linear Kernel) 0. 6517 27.76 3.57 
ll SVM Regressor (Poly Kernel) 0. 4045 46.18 3. 75 


n2 22 无 监督 学 习 经 典 模型 


无 监督 学 习 (Unsupervised Learning) 着 重 于 发 现 数据 本 身 的 分 布 特点 。 与 监督 学 习 
(Supervised Learning) 不 同 ,无 监督 学 习 不 需要 对 数据 进行 标记 。 这 样 ,在 节省 大 量 人 工 
的 同时 ,也 让 可 以 利用 的 数据 规模 变 得 不 可 限量 。 

从 功能 角度 讲 , 无 监督 学 习 模型 可 以 帮助 我 们 发 现 数据 的 “群落 "(2.2.1 数据 聚 类 )， 
同时 也 可 以 寻找 * 离 群 ” 的 样本 ;另外 ,对 于 特征 维度 非常 高 的 数据 样本 ,我 们 同样 可 以 通 
过 无 监督 的 学 习 对 数据 进行 降 维 (2. 2. 2 特征 降 维 ) ,保留 最 具有 区 分 性 的 低 维度 特征 。 
这 些 都 是 在 海量 数据 处 理 中 是 非常 实用 的 技术 。 


2.2.1 数据 聚 类 


数据 聚 类 是 无 监督 学 习 的 主流 应 用 之 一 。 最 为 经 典 并 且 易 用 的 聚 类 模型 , 当 属 K EJ 
值 (K-means) 算 法 。 该 算法 要 求 我 们 预先 设 定 聚 类 的 个 数 , 然 后 不 断 更 新 聚 类 中 心 ;经 过 
几 轮 这 样 的 迭代 ,最 后 的 目标 就 是 要 让 所 有 数据 点 到 其 所 属 聚 类 中 心 距离 的 平方 和 趋 于 
稳定 。 


2.2.1.1 K 均值 算法 


。 模型 介绍 : 这 是 在 数据 聚 类 中 是 最 经 典 的 ,也 是 相对 容易 理解 的 模型 。 算 法 执行 
的 过 程 分 为 4 个 阶段 ,如 图 2-10 所 示 : @ 首 先 ,随机 布设 K 个 特征 空间 内 的 点 作 
为 初始 的 聚 类 中 心 ; @ 然 后 ,对 于 根据 每 个 数据 的 特征 向 量 ,从 K 个 聚 类 中 心中 
寻找 距离 最 近 的 一 个 .并 且 把 该 数据 标记 为 从 属于 这 个 聚 类 中 心 ; 加 接着 ,在 所 
有 的 数据 都 被 标记 过 聚 类 中 心 之 后 ,根据 这 些 数据 新 分 配 的 类 簇 , 重 新 对 K 个 聚 
类 中 心 做 计算 ; @ 如 果 一 轮 下 来 ,所 有 的 数据 点 从 属 的 聚 类 中 心 与 上 一 次 的 分 配 
的 类 簇 没有 变化 ,那么 迭代 可 以 停止 ;否则 回 到 步骤 @ 继 续 循 环 。 
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图 2-10  K-means 算法 迭代 过 程 示例 ,图 片 摘自 于 互联 网 了 ( 见 彩 图 ) 


° 数据 描述 :“2. 1. 1. 2 支持 向 量 机 (分 类 )" 节 曾经 使 用 了 手写 体 数 字 图 像 数 据 。 只 
是 ,Scikit-learn 内 部 集成 的 仅仅 是 原 数 据 集合 的 一 部 分 。 在 本 节 , 我 们 将 使 用 这 
份 手 写 体 数字 图 像 数据 的 完整 版 本 。 读 者 可 以 通过 下 面 这 个 链接 访问 该 数据 集 : 
https://archive. ics. uci. edu/ml/machine-learning-databases/optdigits/ 。 我 们 节 


选 了 部 分 有 价值 的 数据 描述 ,并 展示 如 下 : 


1. Title of Database: Optical Recognition of Handwritten Digits 
5. Nuber of Instances 

cptdigits.tra ^ Training 3823 

optdigits.tes ^ Testing 1797 


‘The way we used the dataset was to use half of training for 
actual training, cne- fourth for validation and one- fourth 
for writer- dependent testing. The test set was used for 
writer- independent testing and is the actual quality measure. 


(D  https://sites. google. com/site/myecodriving/k-means-ju-lei-fen-xi 


6. Nunber of Attributes 
64 input+ 1 class attribute 


7. For Each Attribute: 
AL input attributes are integers in the range 0..16. 
The last attribute is the class code 0..9 


8. Missing Attribute Values 


由 上 面 的 数据 描述 ,我们 可 以 知道 完整 的 手写 体 数 字 图 像 分 为 两 个 数据 集合 。 其 中 
训练 数据 样本 3823 条 ,测试 数据 1797 条 ;图 像 数据 通过 8X8 的 像素 矩阵 表示 ,共有 64 
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个 像素 维度 ;1 个 目标 维度 用 来 标记 每 个 图 像样 本 代表 的 数字 类 别 。 该 数据 没有 缺失 的 
特征 值 ,并且 不 论 是 训练 还 是 测试 样本 ,在 数字 类 别 方面 都 采样 得 非常 平均 ,是 一 份 非常 
规整 的 数据 集 。 

° 编程 实践 : 下 面 就 通过 代码 47 对 这 份 数 据 的 图 像 特征 进行 K-means 聚 类 示例 。 


ET 47: K-means 算法 在 手写 体 数字 图 像 数 据 上 的 使 用 示例 


>>># 分 别 导 人 mnpy.matplot1ib LI Ë: pandas, 用 于 数学 运算 、 作 图 以 及 数据 分 析 。 
>>> import numpy as rp 

>>> import matplotlib.pyplot as plt 

>>> import pandas as pd 


>>># 使 用 pandas 分 别 读 取 训练 数据 与 测试 数据 集 。 

>>> digits_train= pd. read_csv ('https://archive. ics. uci. edy/ml /machine — leaming- databases/ 
cptdigits/optdigits.tra', header= None) 

>>> digits test- pd. read_ csv ('https://archive. ics. uci. edu/mil/machine — leaming- databases/ 
cptdigits/optdigits.tes', header- None) 


>>># 从 训练 与 测试 数据 集 上 都 分 离 出 4 维度 的 像素 特征 与 1 维度 的 数字 目标 。 
>>>X_train= digits train[np.arange (64)] 
>>>y train= digits train[64] 


>>>X_test=digits_test [np.arange (64) ] 
>>> y_test=digits test [64] 


>>> 从 skleam.cluster rh S A. Reans 模 型 。 
>>> fram skleam.cluster import KMeans 


>>> 4 MI kë fk, means HUM FEEL EEE POMA 10. 

>>> kmeans= Keans (n. clusters- 10) 

>>> kreans.fit(X train) 

>>># 逐 条 判断 每 个 测试 图 像 所 属 的 聚 类 中 心 。 

>>> yy pred kmeans .predict X test) E 


° 性 能 测评 : UE BE Be ARR T Un fep PE fh E 28 HAE 09 PE RE PF EA 
标注 类 别 的 数据 集 上 的 时 候 。 针 对 不 同 的 数据 特点 ,这 里 作者 提供 两 种 方式 。 

(1) 如 果 被 用 来 评估 的 数据 本 身 带 有 正确 的 类 别 信息 ,那么 就 如 代码 48 一 样 使 用 

Adjusted Rand Index (ARI), ARI 指标 与 分 类 问题 中 计算 准确 性 (Accuracy) 的 方法 类 


fL. Fd it ab fe BRL T 2888 FC TK Al A DE i — — E IER B] RR , 


| 代码 48. 使 用 ARI 进行 K-means 聚 类 性 能 评估 


>>># 从 skleam 导 入 度量 函数 库 metrics. 
>>> fran skleam inport metrics 
>>> HERI ARI HEFT Keans RAS HE AB TF ffi - 


0.665144851397 


>>> print metrics.adjusted rand score(y test, y pred) J 


(2) 如 果 被 用 于 评估 的 数据 没有 所 属 类 别 ,那么 我 们 习惯 使 用 轮廓 系数 (Silhouette 
Coefficient) 来 度量 聚 类 结果 的 质量 。 轮 廓 系数 同时 兼顾 了 聚 类 的 凝聚 度 (Cohesion) 和 分 
HE (Separation) ,用 于 评估 聚 类 的 效果 并 且 取 值 范围 为 [一 1. 1]。 轮 廓 系数 值 越 大 , 表 
示 聚 类 效果 越 好 。 具 体 的 计算 步骤 如 下 : 对 于 已 聚 类 数据 中 第 i 个 样本 zx', 计算 x! 与 
其 同一 个 类 秘 内 的 所 有 其 他 样本 距离 的 平均 值 , 记 作 w, 用 于 量化 秘 内 的 凝聚 度 
(Cohesion); OWH xi 外 的 一 个 徐 2, 计算 z 5388 p 中 所 有 样本 的 平均 距离 ,遍历 所 有 其 
MBAK ,找到 最 近 的 这 个 平均 距离 , 记 作 必 , 用 于 量化 能 之 间 分 离 度 CSeparation); OX FH 
本 x', 轮廓 系数 为 sc = BALL 图 最 后 对 所 有 样本 X 求 出 平均 值 即 为 当前 聚 类 结 
果 的 整体 轮廓 系数 。 由 轮廓 系数 的 计算 公式 ,不 难 发 现 : 如 果 sc! 小 于 0, 说 明 a! 与 其 入 
内 元 素 的 平均 距离 大 于 最 近 的 其 他 簇 ,表示 聚 类 效果 不 好 ;如 果 ai 趋 于 0, 或 者 矿 足 够 大 ， 
那么 sc 趋 近 与 1 ,说 明 聚 类 效果 比较 好 。 为 了 进一步 形象 地 说 明 轮廓 系数 与 聚 类 效果 的 
关系 ,使 用 代码 49 对 一 组 简单 的 数据 进行 分 析 。 


[ s 49. WARM ARIMA ARAB K-means 聚 类 实例 


>>># 导 人 mumpy。 

>>> import numpy as np 

>>> Á skleam.cluster A FMeans 算 法 包 。 

>>> frm sklearn.cluster import KMeans 

>>># 从 skleam.metrics $A silhouette score 用 于 计算 轮廓 系数 。 
>>> frm skleam.metrics import silhouette score 

>>> import matplotlib.pyplot as plt 


>>># 分 割 出 3* 三 6 个 子 图 ,并 在 1 号 子 图 作 图 。 
>>>plt.sibplot (3,2,1) 


: 86 : Pyham 机 器 学 习 及 实践 


>>># 初 始 化 原始 数据 点 。 

>>>xl= rp.array ([1, 2, 3, 1, 5, 6, 5, 5, 6, 7, 8, 9, 7, 91) 
>>> X2- rp.array ([1, 3, 2, 2, 8, 6, 7, 6, 7, 1, 2, 1, 1, 3]) 
>>> X-rp.array (zip il, x2)) reshape (len (x1) , 2) 


>>> fE 1 号 子 图 做 出 原始 数据 点 阵 的 分 布 。 
>>>plt.xlim([0, 10]) 

»»»pit.ylim([0, 10]) 
>>>plt.title("Instances') 
>>>plt.scatter (xl, x2) 


>>> colors ['b', 'g', 'r', 'c', 'm', ty", 'k', 'b'] 
»»»markers- [ov 's', 'D', 'v', ev tpt, '% ', "+ '] 


>>> clusters= [2, 3, 4, 5, 8] 

>>> subplot_counter= 1 

>>> sc_scores= [] 

>>> for t in clusters: 

>>> ‘subplot_counter + =1 

>>> Plt.subplot (3, 2, subplot_counter) 

>>> kmeans model-KMeans (n_clusters= t) .fit (X) 


>>> for i, 1 in emmerate (kmeans model.labels ): 
>>> pit.plot (xl [i], x2[i], oolor- colors[1], marker=markers[1], 1s= 'None') 


>>> pit.xlim([0, 10]) 

>>> pit.ylim([0, 10]) 

>>> — sc_score= silhouette score(X, kmeans model.labels , metric- 'euclidean') 
>>> Sc scores.append(sc score) 


>>># 绘 制 轮廓 系数 与 不 同类 簇 数量 的 直观 显示 图 。 
>> pilt.title("K-%s, silhouette coefficient=%0.03f' & (t, sc score) 


>>># 绘 制 轮 廓 系数 与 不 同类 能 数量 的 关系 曲线 。 
>>>plt.figure() 


>>>pllt plot (clusters, sc scores, '* - ') 
>>> plt.xlabel (‘Number of Clusters!) 
>>> plt.ylabel (‘Silhouette Coefficient Score") 


>>> plt.show() 
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图 2-11 利用 轮廓 系数 评价 不 同类 和 做 数 量 的 K-means 聚 类 结果 示例 ( 见 彩 图 ) 


从 代码 49 所 输出 的 图 2-12 ,我 们 得 知 当 聚 类 中 心 数 量 为 3 的 时 候 , 轮 廓 系数 最 大 ;此 


Silhouette Coefficient Score 
& 
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2 3 4 6 7 8 


5 
Number of Clusters 
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时 ,我 们 从 图 2-11 也 可 以 观察 到 聚 类 中 心 数量 为 3 也 符合 数据 的 分 布 特点 ,的 确 是 相对 
较为 合理 的 类 艇 数量 。 

° 特点 分 析 : K-means 聚 类 模型 所 采用 的 迭代 式 算 法 ,直观 易 民 并且 非常 实用 。 只 

是 有 两 大 缺陷 : O 容易 收敛 到 局 部 最 优 解 ;@) 需要 预先 设 定 簇 的 数量 。 

首先 解释 什么 叫做 局 部 最 优 解 。 假 设 图 2-13 左 侧 为 实际 数据 以 及 正确 的 所 属 类 簇 。 
如 果 聚 类 算法 可 以 收敛 至 全 局 最 优 解 ,那么 三 个 类 簇 的 聚 类 中 心 应 如 右 侧 Global 
Optimum 所 示 , 聚 类 结果 同 正确 结果 一 致 。 但 是 ,K-means 算法 无 法 保证 能 够 使 得 三 个 
类 簇 的 中 心 迭 代 至 上 述 的 全 局 最 优 解 。 相 反 很 有 可 能 受到 随机 初始 类 簇 中 心 点 位 置 的 影 
响 , 最 终 和 迭代 到 如 右 侧 Local Optimum 所 示 的 两 种 情况 而 收敛 。 这 样 便 导 致 无 法 继续 更 
新 聚 类 中 心 ,使 得 聚 类 结果 与 正确 结果 又 很 大 出 入 。 这 是 算法 自身 的 理论 缺陷 所 造成 的 ， 
无 法 轻易 地 从 模型 设计 上 弥补 ; 却 可 以 通过 执行 多 次 K-means 算法 来 挑选 性 能 表现 更 好 
的 初始 中 心 点 ,这 样 的 工程 方法 代替 。 

然后 ,我 们 介绍 一 种 * 肘 部 ”观察 法 用 于 粗略 地 预 估 相对 合理 的 类 簇 个 数 。 因 为 K- 
means 模型 最 终 期 望 所 有 数据 点 到 其 所 属 的 类 入 距离 的 平方 和 趋 于 稳定 ,所 以 我 们 可 以 
通过 观察 这 个 数值 随 着 K 的 走势 来 找 出 最 佳 的 类 簇 数 量 。 理 想 条 件 下 ,这 个 折线 在 不 断 
下 降 并 且 趋 于 平缓 的 过 程 中 会 有 斜率 的 拐点 ,同时 意味 着 从 这 个 拐点 对 应 的 K 值 开 始 ， 
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图 2-14 3 个 簇 的 数据 样本 


O http://www. cnblogs. com/python27/p/MachineLearningWeek08. html 
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三 个 类 艇 的 数据 点 。 通 过 图 2-15 RM, KREA 1 sÇ 2 的 时 候 ,样本 距 所 属 类 簇 的 平 
均 距 离 的 下 降 速 度 很 快 ,这 说 明 更 改 K 值 会 让 整体 聚 类 结构 有 很 大 改变 ,也 意味 着 新 的 
聚 类 数量 让 算法 有 更 大 的 收敛 空间 ,这样 的 K 值 不 能 反映 真实 的 类 入 数 量 。 而 当 K =3 
时 ,平均 距离 的 下 降 速度 有 了 显著 放 缓 , 这 意味 着 进一步 增加 K 值 不 再 会 有 利于 算法 的 
收敛 ,也 同时 暗示 着 K—3 是 相对 最 佳 的 类 簇 数 量 。 
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[ «9 50:“ 肘 部 ”观察 法 示例 


>>># 导 入 必要 的 工具 包 。 

>>> import numpy as rp 

>>> frm skleam.cluster import KMeans 

>>> from scipy.spatial distance import odist 
>>> import matplotlib.pyplot as plt 


>>> 4 (8 FSIS) 4378 PS Sk BL = A fi BAL Bl 10 个 数据 样本 。 
>>> clusteri-rp.randa.unifom(0.5, 1.5, (2, 10)) 
>>> cluster2=np.randan.niform(5.5, 6.5, (2, 10)) 
>>> cluster3-rp.randan.unifomQ.0, 4.0, (2, 10)) 


>>># 绘 制 20 个 数据 样本 的 分 布 图 像 - 

>>> X- np.hstack( (clusterl, cluster, cluster3)) .T 
>>> pit. scatter X[:,0], X[:, 1]) 

>>> plt.xlabel ("x1") 

>>> plt.ylabel ("x2") 

>>>plt.show() 


>>># 测 试 9 种 不 同 聚 类 中 心 数量 下 ,每 种 情况 的 聚 类 质量 ,并 作 图 。 
>>> Ke range (1, 10) 
>>>meandistortions= [] 


>>> for k in K: 

>>> — kreans-Kweans(n clusters- k) 

>>> means fit (X) 

>> meandistortions.append (sum (np.min (odist (X, kmeans.cluster centers , 
euclidean"), axis- 1)) /X.shape[0]) 


>>> plt.plot (K, meandistortions, 'bx- ') 

>>> plt.xlabel ('k') 

>>> pllt.ylabel ('Average Dispersion") 

>>> pit. title ("selecting k with the Elbow Method") 


>>> plt.show() J 


2.2.2 特征 降 维 


特征 降 维 是 无 监督 学 习 的 另 一 个 应 用 ,目的 有 二 : 其 一 ,我 们 会 经 常 在 实际 项 目 中 但 
过 特征 维度 非常 之 高 的 训练 样本 ,而 往往 又 无 法 借助 自己 的 领域 知识 人 工 构 建 有 效 特征 ; 
其 二 ,在 数据 表现 方面 ,我 们 无 法 用 肉眼 观测 超过 三 个 维度 的 特征 。 因 此 ,特征 降 维 不 仅 
重 构 了 有 效 的 低 维度 特征 向 量 , 同 时 也 为 数据 展现 提供 了 可 能 。 在 特征 降 维 的 方法 中 E 
成 分 分 析 (Principal Component Analysis) 是 最 为 经 典 和 实用 的 特征 降 维 技术 ,特别 在 辅 
助 图像 识 别 方面 有 突出 的 表现 。 


2.2.2.1 主 成 分 分 析 


。 模型 介绍 : 首先 我 们 思考 两 个 小 例子 ,这 也 是 作者 经 常用 来 向 周围 朋友 解释 降低 
维度 .信息 元 余 和 PCA 功能 的 。 


到 


如 代码 51 所 示 ,我 们 有 一 组 2x 2 的 数据 [[1, 2],[2, 4]]。 假 设 这 两 个 数据 都 反映 


-个 类 别 ( 分 类 ) 或 者 一 个 类 簇 ( 聚 类 ) 。 如 果 我 们 的 学 习 模型 是 线性 模型 ,那么 这 两 个 


数据 其 实 只 能 帮助 权重 参数 更 新 一 次 ,因为 他 们 线性 相关 ,所 有 的 特征 数值 都 只 是 扩张 了 
相同 的 倍数 ;如 果 使 用 PCA 分 析 的 话 , 这 个 矩阵 的 “ 秩 " 是 1, 也 就 是 说 ,在 多 样 性 程度 上 ， 
这 个 矩阵 只 有 一 个 自由 度 。 


[ts 51. 线性 相关 矩阵 秩 计算 样 人 


>>># 导 人 nmpy 工 具 包 。 

>>> import numpy as np 

>>># 初 始 化 一 个 2* 2 的 线性 相关 矩阵 。 
>>>Memp.array([[1, 2], [2, 4]]) 

>>> Hit 2* 2 线性 相关 矩阵 的 秩 。 
>>>np.linalg.matrix_rank(M, tol=None) 


-l 


再 比如 ,图 2-16 所 示 的 几 张 花 酒 图 片 。 是 试图 把 三 维 物 体重 新 映射 在 二 维 照片 的 过 


程 。 在 这 个 过 程 中 ,可 以 有 无 数 种 映射 的 角度 。 但 是 ,我 们 可 以 通过 肉眼 判断 出 ,最 后 一 
张 的 角度 最 为 合适 也 最 容易 分 辩 。 
Fr EJ 


图 2-16 花 酒 多 角度 照片 ,分 别 是 从 后 .前 、 上 ,以 及 最 适合 角度 拍摄 ,图 片 摘自 参考 文献 [8] 


其 实 , 我 们 也 可 以 把 PCA 当 作 特征 选择 ,只 是 和 普通 理解 的 不 同 ,这 种 特征 选择 是 首 


先 把 原来 的 特征 空间 做 了 映射 ,使 得 新 的 映射 后 特征 空间 数据 彼此 正 交 。 这 样 一 来 ,我 们 
通过 主 成 分 分 析 就 尽 可 能 保留 下 具备 区 分 性 的 低 维 数据 特征 。 


° 数据 描述 : 本 节 我 们 依然 沿用 上 一 节 使 用 的 “手写 体 数 字 图 像 * 全 集 数据 。 因 为 
之 前 我 们 已 经 对 这 个 数据 集中 训练 测试 样本 的 数量 ,图 像 的 数码 维度 做 了 介绍 ， 
这 里 便 不 再 缆 述 。 而 是 从 主 成 分 分 析 技术 方便 展示 数据 的 角度 出 发 ,为 读者 朋友 
显示 经 过 PCA 处 理 之 后 ,这 些 数字 图 像 映射 在 二 维 空间 的 分 布 情况 ,如 图 2-17 
所 示 。 尽 管 我 们 把 原始 六 十 四 维度 的 图 像 压缩 到 只 有 二 个 维度 的 特征 空间 ,依然 
可 以 发 现 绝 大 多 数 数字 之 间 的 区 分 性 ,详细 过 程 请 见 代 码 52。 
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图 2-17 手写 体 数字 图 像 经 PCA 压缩 后 的 二 维 空间 分 布 ( 见 彩 图 ) 


| 代码 52: 显示 手写 体 数字 图 片 经 PCA 压缩 后 的 二 维 空间 分 布 


>>> A. pandas 用 于 数据 读 取 和 处 理 。 
>>> import pandas as pd 


>>># 从 互联 网 读 人 手写 体 图 片 识 别 任务 的 训练 数据 ,存储 在 变量 digits train 中 。 
>>> digits train= pd.read csv ('https://archive. ics. uci. edu/ml/machine- leaming- databases/ 
optdigits/optdigits.tra’, header- None) 


>>># 从 互联 网 读 人 手写 体 图 片 识别 任务 的 测试 数据 ,存储 在 变量 digits test 中。 

>>> digits test- pd. read csv (' https://archive. ics. uci. edu/ml/machine - leaming- databases/ 
cptdigits/optdigits.tes', header=None) 

>>># 分 割 训练 数据 的 特征 向 量 和 标记 。 

>>>X digits-digits train[np.arange (64) ] 


>>>y_digits=digits train[64] 


>>> 从 sklearn.deoamposition $A PA. 


Pyha 机 器 学 习 及 实践 


>>> fran skleam.decamposition import FA 


>>># 初 始 化 一 个 可 以 将 高 维度 特征 向 量 ( 六 十 四 维 ) 压 缩 至 二 个 维度 的 EC 
>>> estimator= PCA (n_components= 2) 
>>>X poa-estimator.fit transform(X digits) 


>>># 显 示 10 类 手写 体 数字 图 片 经 FA 压缩 后 的 2 维 空间 分 布 。 

>>> from matplotlib import pyplot as plt 

>>> def plot pca scatter(): 

>>> colors- ['black', 'blue', 'purple', 'yellow', 'white', 'red', 'lime', 
'cyan', 'orange', 'gray'] 


>>> for i in xrange(len(colors)): 


>> px-X peal:, 0] [y digits.as matrix() == i] 
>>> PY x paat:, 1] [y digits.as matrix()-- i] 
>>> pit.scatter (px, py, c- oolors[i]) 


>>> plt.legend(np.arange (0,10) .astype (str) ) 
>>> plt.xlabel ("First Principal Component") 
>>> pit.ylabel ("Second Principal Camponent') 
>>> plt.show() 


>>>plot pca scatter () J 


° 编程 实践 : 我 们 在 “2. 1. 1. 2 支持 向 量 机 (分 类 )” 节 使 用 支持 向 量 机 分 类 模型 对 手 
写 体 数字 图 像 进 行 识别 ,并 取得 了 很 好 的 预测 性 能 。 当 时 ,我 们 使 用 了 全 部 8X8 
一 64 维度 的 图 像 像 素 特征 对 模型 进行 训练 。 这 一 节 , 我 们 通过 代码 53, 分 别 训练 
两 个 以 支持 向 量 机 (分 类 ) 为 基础 的 手写 体 数字 图 像 识 别 模型 .其 中 一 个 模型 使 用 
原始 六 十 四 维度 的 像素 特征 , 另 一 个 采用 经 过 PCA 压缩 重建 之 后 的 低 维 特征 。 


| 代码 53. 使 用 原始 像素 特征 和 经 PCA 压缩 重建 的 低 维 特征 ,在 相同 配置 的 支持 
向 量 机 (分 类 ) 模 型 上 分 别 进行 图 像 识 别 
>>># 对 训练 数据 ,测试 数据 进行 特征 向 量 (图 片 像 素 ) 与 分 类 目标 的 分 隔 。 
>>>X_train digits train[np.arange (64) ] 
»»»y train-digits train[64] 
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>>>X test-digits test[np.arange (64) ] 
»»»y test-digits test[64] 


>>># 导 入 基于 线性 核 的 支持 向 量 机 分 类 器 。 
>>> fran skleam.svm import Linearsvc 


>>># 使 用 默认 配置 初始 化 Linearsvc, 对 原始 六 十 四 维 像素 特征 的 训练 数据 进行 建 模 ,并 在 测试 
数据 上 做 出 预测 ,存储 在 y predict 中 。 

>>> sve= Linearsvc () 

>>> sve.fit X train, y train) 

>>> y predict- svc.predict (X test) 


>>># 使 用 FR 将 原 六 十 四 维 的 图 像 数据 压缩 到 20 个 维度 。 
>>> estimator= PCA (n_omporents= 20) 


>>># 利 用 训练 特征 决定 (fi 20 4" 1E BE HE BE 09 77 181 3-4 HC transform) 原 训 练 特征 。 
>>>pcea_X_train=estimator.fit_transform( train) 

>>># 测 试 特征 也 按照 上 述 的 20 个 正 交 维度 方向 进行 转化 (transform 。 

»»»pca X test=estimator.transform(X test) 


>>># 使 用 默认 配置 初始 化 Iinearsvc, 对 压缩 过 后 的 二 十 维特 征 的 训练 数据 进行 建 模 , 并 在 测试 
数据 上 做 出 预测 ,存储 在 pca y predict 中 。 

>>> pca_svc= LinearSvc() 

»»»pca svc.fit(pca X train, y train) 

2»»pca y predict-pca sve.predict (pca X test) J 


。 性 能 测评 : 代码 54 将 对 比 原 始 维度 特征 与 经 过 PCA 压缩 重建 之 后 的 图 像 特 征 ， 
在 相同 配置 的 支持 向 量 机 (分 类 ) 模 型 上 识别 性 能 的 差异 。 
| 代码 54, 原始 像素 特征 与 PCA 压缩 重建 的 低 维特 征 ,在 相同 配置 的 支持 向 量 机 
(分 类 ) 模 型 上 识别 性 能 的 差异 
>>># 从 skleam.metrics & À. classification report 用 于 更 加 细致 的 分 类 性 能 分 析 。 


>>> frm skleam.metrics import classification report 


>>># 对 使 用 原始 图 像 高 维 像素 特征 训练 的 支持 向 量 机 分 类 器 的 性 能 作出 评估 。 
>>>print svc.score(X test, y test) 


Pyho 机 器 学 习 及 实践 


: 96 


»»»print classification report (y test, y predict, target names- np.arange (10) .astype (str) ) 


>>># 对 使 用 FA 压缩 重建 的 低 维 图 像 特征 训练 的 支持 向 量 机 分 类 器 的 性 能 作出 评估 。 
>>>print pca svc.score(pca X test, y test) 


>>> print classification report (y test, pca y predict, target names- mp.arange (10) .astype (str)) 


0.930996104619 
precision recall fl-score support 


0 0.99 0.98 0.99 178 
1 0.94 0.84 0.89 182 
2 0.99 0.97 0.98 im 
3 0.97 0.92 0.94 183 
4 0.95 0.97 0.96 181 
5 0.89 0.% 0.93 182 
6 0.99 0.98 0.99 181 
7 0.98 0.90 0.94 179 
8 0.78 0.91 0.84 174 
9 0.86 0.89 0.87 180 
avg / total 0.93 0.93 0.93 1797 
0. 909293266555 
precision recall fl-score support 
0 0.96 0.96 0. 178 
1 ,78 0.85 0.82 182 
2 0.96 0.98 0.97 im 
3 0.99 0.89 0.94 183 
4 0.95 0.92 0.93 181 
5 0.84 0.97 0. 182 
6 0.% 0.97 0.96 181 
7 0.93 0.92 0.93 179 
8 0.83 0.83 0.83 174 
9 0.92 0.82 0.86 180 
avg / total 0.91 0.91 0.91 1797 


我 们 从 代码 54 的 输出 中 发 现 ,尽管 经 过 PCA 特征 压缩 和 重建 之 后 的 特征 数据 会 损 
Ak 2% 左 右 的 预测 准确 性 ,但 是 相 比 于 原始 数据 六 十 四 维度 的 特征 而 言 ,我 们 却 使 用 PCA 
压缩 并 且 降 低 了 68.75% 的 维度 。 
* 特点 分 析 : 降 维 /压缩 问题 则 是 选取 数据 具有 代表 性 的 特征 ,在 保持 数据 多 样 性 
(Variance) 的 基础 上 ,规避 掉 大 量 的 特征 元 余 和 噪声 ,不 过 这 个 过 程 也 很 有 可 能 
会 损失 一 些 有 用 的 模式 信息 。 经 过 大 量 的 实践 证 明 , 相 较 于 损失 的 少 部 分 模型 性 
能 ,维度 压缩 能 够 节省 大 量 用 于 模型 训练 的 时 间 。 这 样 一 来 ,使 得 PCA 所 带 来 的 
模型 综合 效率 变 得 更 为 划算 。 


n2 23 章 示 小结 


作为 全 书 的 基础 与 核心 章节 之 一 ,笔者 希望 各 位 读者 朋友 在 阅读 完 本 章 后 ,能 够 对 经 
上 典 机 器 学 习 模型 的 种 类 和 各 自 特性 有 所 了 解 。 

在 模型 种 类 方面 ,我 们 希望 读者 朋友 可 以 回答 如 下 问题 : 

(1) 机 器 学 习 模型 按照 可 使 用 的 数据 类 型 ,可 以 分 为 哪些 类 别 ? 

(2) 常见 的 监督 学 习 与 无 监督 学 习 的 模型 都 有 哪些 ? 

就 模型 特性 而 言 ,我 们 希望 大 家 可 以 总 结 和 归纳 : 

(1) 各 个 模型 分 别 基 于 哪些 数学 假设 ? 

(2) 各 个 模型 适合 处 理 哪 类 数据 ? 

(3) 每 个 模型 在 使 用 方面 的 优 缺点 有 哪些 ? 

(4) 常见 的 用 于 评估 各 个 模型 的 性 能 指标 以 及 计算 方法 是 怎样 的 ? 

如 果 读 者 不 仅 可 以 回答 上 述 问题 ,并 且 能 够 独立 实践 本 章 的 代码 ,那么 您 已 经 初步 具 
备 了 实践 机 器 学 习 经 典 模型 的 知识 及 能 力 ,期 待 大 家 学 习 愉 快 。 本 章 所 有 数据 与 代码 示 
例 都 可 以 通过 此 链接 http://pan. baidu. com/s/1dENAUTr 以 及 http://pan. baidu. 
com/s/1kVo3fr5 下 载 。 


xt Wr 篇 


在 第 2 章 中 ,我 们 向 读者 介绍 了 大 量 经 典 的 机 器 学 习 模 型 ,并 且 使 用 Python 编程 语 
言 分 析 这 些 模型 在 许多 不 同 现实 数据 上 的 性 能 表现 。 然 而 ,细心 的 读者 在 深入 研究 这 些 
数据 或 者 查阅 Scikit-learn 的 文档 之 后 就 会 发 现 : 所 有 我 们 在 第 2 章 中 使 用 过 的 数据 几 
平 都 经 过 了 规范 化 处 理 , 而 且 模 型 也 大 多 只 是 采用 了 默认 的 初始 化 配置 。 换 言 之 ,尽管 我 
们 可 以 使 用 经 过 处 理 之 后 的 数据 ,在 默认 配置 下 学 习 到 一 套用 以 拟 合 这 些 数据 的 参数 ,并 
且 使 用 这 些 参 数 和 默认 配置 取得 一 些 看 似 良好 的 性 能 表现 ;但 是 我 们 仍然 无 法 回答 几 个 
最 为 关键 的 问题 : 实际 研究 和 工作 中 接触 到 的 数据 都 是 这 样 规整 的 吗 ? 难道 这 些 默认 配 
置 就 是 最 佳 的 么 ?我 们 的 模型 性 能 是 否 还 有 提升 的 空间 ? 本 章 “3. 1 模型 使 用 技巧 ” 节 将 
会 帮助 读者 朋友 解答 上 述 疑问 。 阅 读 完 这 一 节 , 相 信 各 位 读者 朋友 就 会 掌握 如 何 通 过 抽 
取 或 者 筛选 数据 特征 、 优 化 模型 配置 ,进一步 提升 经 典 模型 的 性 能 表现 。 

然而 , 随 着 近 些 年 机 器 学 习 研 究 与 应 用 的 快速 发 展 ,经 典 模型 渐渐 无 法 满足 日 益 增长 
的 数据 量 和 复杂 的 数据 分 析 需 求 。 因 此 , 越 来 越 多 更 加 高 效 而 且 强力 的 学 习 模型 以 及 对 
应 的 程序 库 正 逐 渐 被 设计 和 编写 ,并 慢 慢 被 科研 圈 和 工业 界 所 广泛 接受 与 采用 。 这 些 模 
型 和 程序 库 包 括 : 用 于 自然 语言 处 理 的 NLTK 程序 包 ; 词 向 量 技术 Word2Vec; 能 够 提供 
强大 预测 能 力 的 XGBoost 模型 ,以 及 Google 发 布 的 用 于 深度 学 习 的 Tensorflow 框架 等 
等 。 更 加 令 人 振奋 的 是 ,上 述 这 些 最 为 流行 的 程序 库 和 模型 , 不 但 提供 了 Python 的 编程 
接口 API, 而 且 有 些 成 为 Python 编程 语言 的 工具 包 , 更 是 方便 了 我 们 后 续 的 学 习 和 使 用 。 
因此 ,在 “3. 2 流行 库 /模型 实践 ” 节 将 会 带领 各 位 读者 一 同 领略 这 些 时 下 最 为 流行 的 程序 
库 和 新 模型 的 奥妙 。 


Typis 模型 实用 技巧 


这 一 节 将 向 读者 朋友 传授 一 系列 更 加 偏向 于 实战 的 模型 使 用 技巧 。 相 信 各 位 读者 在 
第 2 章 中 品味 了 多 个 经 典 的 机 器 学 习 模型 之 后 ,就 会 发 现 : 一 旦 我 们 确定 使 用 某 个 模型 ， 


本 书 所 提供 的 程序 库 就 可 以 帮助 我 们 从 标准 的 训练 数据 中 ,依靠 默认 的 配置 学 习 到 模型 
所 需要 的 参数 (Parameters) ; 接 下 来 ,我 们 便 可 以 利用 这 组 得 来 的 参数 指导 模型 在 测试 数 
据 集 上 进行 预测 ,进而 对 模型 的 表现 性 能 进行 评价 。 

但 是 ,这 套 方案 并 不 能 保证 : (1) 所 有 用 于 训练 的 数据 特征 都 是 最 好 的 ;(2) 学 习 得 
到 的 参数 一 定 是 最 优 的 ;(3) 默认 配置 下 的 模型 总 是 最 佳 的 。 也 就 是 说 ,我 们 可 以 从 多 个 
角度 对 在 前 面 所 使 用 过 的 模型 进行 性 能 提升 。 本 节 将 向 大 家 介绍 多 种 提升 模型 性 能 的 方 
式 ,包括 如 何 预 处 理 数据 ,控制 参数 训练 以 及 优化 模型 配置 等 方法 。 


3.1.1 特征 提升 


早期 机 器 学 习 的 研究 与 应 用 , 受 模型 种 类 和 运算 能 力 的 限制 。 因 此 ,大 部 分 研发 人 员 
把 更 多 的 精力 放 在 对 数据 的 预 处 理 上 。 他 们 期 望 通过 对 数据 特征 的 抽取 或 者 筛选 来 达到 
提升 模型 性 能 的 目的 。 所 谓 特征 抽取 ,就 是 逐条 将 原始 数据 转化 为 特征 向 量 的 形式 ,这 个 
过 程 同时 涉及 对 数据 特征 的 量化 表示 ;而 特征 筛选 则 更 进一步 ,在 高 维度 ,已 量化 的 特征 
向 量 中 选择 对 指定 任务 更 有 效 的 特征 组 合 , 进 一 步 提升 模型 性 能 。 

3.1.1.1 特征 抽取 

原始 数据 的 种 类 有 很 多 种 ,除了 数字 化 的 信号 数据 ( 声 纹 、 图 像 ), 还 有 大 量 符号 化 的 
文本 。 然 而 ,我 们 无 法 直接 将 符号 化 的 文字 本 身 用 于 计算 任务 ,而 是 需要 通过 某 些 处 理 手 
段 ,预先 将 文本 量化 为 特征 向 量 。 

有 些 用 符号 表示 的 数据 特征 已 经 相对 结构 化 ,并 且 以 字典 这 种 数据 结构 进行 存储 。 
这 时 ,我 们 使 用 Dict Vectorizer 对 特征 进行 抽取 和 向 量化 。 比 如 下 面 的 代码 55。 

代码 55; DictVectorizer 对 使 用 字典 存储 的 数据 进行 特征 抽取 与 向 量化 

>>># 定 义 一 组 字典 列表 ,用 来 表示 多 个 数据 样本 (每 个 字典 代表 一 个 数据 样本 ) 。 


>>> measurements= [('city': "Dubai', ‘temperature’: 33.}, ('city': 'London', 'tenperature': 12.}, (' 


city’: 'San Fransisco', 'temperature': 18.]] 

>>> +# JÁ skleam.featume extraction A DictVectorizer 
>>> fram skleam.feature_extraction import DictVectorizer 
>>># 初 始 化 Dictvectorizer 特 征 抽取 器 

>>> vec= DictVectorizer () 

>>>+# 输 出 转化 之 后 的 特征 矩阵。 

>>> print vec.fit transform(measurerents) .toarray () 

>>># 输 出 各 个 维度 的 特征 含义 。 

>>> print vec.get feature names() 


[ 0. 0. 1. 18] 
['city- Dubai', 'city=London', 'city- San Fransisco', 'temperature'] J 


从 代码 55 的 输出 可 以 看 到 : 在 特征 向 量化 的 过 程 中 , Dict Vectorizer 对 于 类 别 型 
(Categorical) 与 数值 型 (Numerical) 特 征 的 处 理 方式 有 很 大 差异 。 由 于 类 别 型 特征 无 法 
直接 数字 化 表示 ,因此 需要 借助 原 特征 的 名 称 . 组 合 产生 新 的 特征 ,并 采用 0/1 二 值 方式 
进行 量化 ;而 数值 型 特征 的 转化 则 相对 方便 ,一 般 情 况 下 只 需要 维持 原始 特征 值 即 可 。 

另外 一 些 文本 数据 则 表现 得 更 为 原始 ,几乎 没有 使 用 特殊 的 数据 结构 进行 存储 ,只 是 

-系列 字符 串 。 我 们 处 理 这 些 数 据 , 比较 常用 的 文本 特征 表示 方法 为 词 袋 法 (Bag of 
Words) ; 顾名思义 ,不 考虑 词语 出 现 的 顺序 ,只 是 将 训练 文本 中 的 每 个 出 现 过 的 词汇 单 
独 视 作 一 列 特征 。 我 们 称 这 些 不 重复 的 词汇 集合 为 词 表 (Vocabulary) ,于 是 每 条 训练 文 
本 都 可 以 在 高 维度 的 词 表 上 映射 出 一 个 特征 向 量 。 而 特征 数值 的 常见 计算 方式 有 两 种 ， 
分 别 是 : CountVectorizer 和 TfidfVectorizer。 对 于 每 一 条 训练 文本 ,CountVectorizer 只 
考虑 每 种 词汇 (Term) 在 该 条 训练 文本 中 出 现 的 频率 (Term Frequency)。 而 
TfidfVectorizer 除了 考量 某 一 词汇 在 当前 文本 中 出 现 的 频率 (Term Frequency) 之 外 , 同 
时 关注 包含 这 个 词汇 的 文本 条 数 的 倒数 (Inverse Document Frequency)。 相 比 之 下 ,训练 
文本 的 条 目 越 多 , TfidfVectorizer 这 种 特征 量化 方式 就 更 有 优势 。 因 为 我 们 计算 词 频 
(Term Frequency) 的 目的 在 于 找 出 对 所 在 文本 的 含义 更 有 贡献 的 重要 词汇 。 然 而 ,如 果 

-个 词汇 几乎 在 每 篇 文本 中 出 现 , 说 明 这 是 一 个 常用 词汇 ,反而 不 会 帮助 模型 对 文本 的 分 
类 ;在 训练 文本 量 较 多 的 时 候 , 利 用 TfidfVectorizer 压制 这 些 常 用 词汇 的 对 分 类 决策 的 
干扰 ,往往 可 以 起 到 提升 模型 性 能 的 作用 。 

我 们 通常 称 这 些 在 每 条 文本 中 都 出 现 的 常用 词汇 为 停 用 词 (Stop Words) ,如 英文 中 
的 the ya 等 。 这 些 停 用 词 在 文本 特征 抽取 中 经 常 以 黑 名 单 的 方式 过 滤 掉 ,并 且 用 来 提高 
模型 的 性 能 表现 。 下 面 的 代码 让 我 们 重新 对 “20 类 新 闻 文本 分 类 ”问题 进行 分 析 处 理 , 这 

-次 的 重点 在 于 列举 上 述 两 种 文本 特征 量化 模型 的 使 用 方法 .并 比较 他 们 的 性 能 差异 。 


| 代码 56: 使 用 CountVectorizer 并 且 不 去 掉 停 用 词 的 条 件 下 ,对 文本 特征 进行 量化 
的 朴素 贝 叶 斯 分 类 性 能 测试 
>>># 从 skleam.datasets 里 导入 20 类 新 闻 文本 数据 抓 取 器 。 
>>> frm skleam.datasets import fetch 20newsgroups 
>>># 从 互联 网 上 即时 下 载 新 闻 样 本 ,suibeet- 'all' 参 数 代表 下 载 全 部 近 2 万 条 文本 存储 在 变 
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量 news 中 。 
>>> news= fetch 20newsgroups (subset= 'all') 


>>> # JÁ skleam.cross validation $ À. train test split 模 块 用 于 分 割 数据 集 。 

>>> fram skleam.cross validation import train test split 

>>> # X news 中 的 数据 data 进 行 分 割 ,25$ 的 文本 用 作 测试 集 ;758 作 为 训练 集 。 

>>>X train, X test, y train, y test= train test split (news.data news.target, test size- 0.25, 
Tanam state- 33) 


>>> # JÁ. skleam.feature_extraction.text EA CountVectorizer 

>>> frm sklearn.feature extraction.text import CountVectorizer 

>>># 采 用 默认 的 配置 对 Countvectorizer 进行 初始 化 (默认 配置 不 去 除 英文 停 用 词 ), 并 且 赋 值 给 
变量 count. vec. 

>>> count vec= CountVectorizer () 


>>># 只 使 用 词 频 统计 的 方式 将 原始 训练 和 测试 文本 转化 为 特征 向 量 。 
>>>X_count train-count vec.fit transform(X train) 
»»»X cout test= count vec.transform(X test) 


>>> + SA skleam.naive bayes 里 导 人 朴素 贝 叶 斯 分 类 器 。 

>>> from skleam.naive_bayes import MiltinanialNs 

>>># 使 用 默认 的 配置 对 分 类 器 进行 初始 化 。 

>>>mb count=Miltincmia1NB () 

>>> # 使 用 朴素 贝 叶 斯 分 类 器 ,对 countvectorizer( 不 去 除 停 用 词 ) 后 的 训练 样本 进行 参数 学 习 。 
>>>mnb_count..fit (X_count_train, y train) 


>>>+# 输 出 模型 准确 性 结果 。 

>>> print 'The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without 
filtering stopwords) :', mb count.score(X count test, y test) 

>>># 将 分 类 预测 的 结果 存储 在 变量 y count predict 中 。 

>>> y_count_predict=mnb_count.predict (X_count_test) 

>>># 从 skleam.metrics $À classification report, 

>>> from sklearn.metrics import classification report 

>>># 输 出 更 加 详细 的 其 他 评价 分 类 性 能 的 指标 。 

>>>print classification report (y test, y count predict, target_names=news.target_names) 


Pyha 机 器 学 习 及 实践 


The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without filtering 
stopwords) : 0.839770797963 


precision recall fl- score support 
alt.atheism 0.86 0.86 0.86 201 
camp.graphics 0.59 0.86 0.70 250 
comp.os .ms- windows.misc 0.89 0.10 0.17 248 
Cenp.sys.ikm.pc.harcdare 0.60 0.88 0.72 240 
carp.sys.rac.hardware. 0.93 0.78 0.85 242 
comp. wincows.x 0.82 0.84 0.83 263 
misc.forsale 0.91 0.70 0.79 257 
rec.autos 0.89 0.89 0.89 238 
Tec.motorcycles 0.98 0.92 0.95 276 
rec.sport.baseball 0.98 0.91 0.95 251 
rec.sport.hockey 0.93 0.99 0.96 233 
sci.crypt 0.86 0.98 0.91 238 
sci.electronics 0.85 0.88 0.86 249 
sci med 0.92 0.94 0.93 245 
sci.space 0.89 0.96 0.92 221 
soc.religicn.christian 0.78 0.96 0.86 23 
talk.politics.guns 0.88 0.96 0.92 251 
talk.politics.mideast 0.90 0.98 0.94 231 
talk.politics.misc 0.79 0.89 0.84 188 
talk.religicn.misc 0.93 0.44 0.60 158 
avg / total 0.86 0.84 0.82 4712 _| 


从 上 面 代码 的 输出 ,我 们 可 以 知道 ,使 用 Count Vectorizer 在 不 去 掉 停 用 词 的 条 件 下 ， 
对 训练 和 测试 文本 进行 特征 量化 .并 利用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 测试 文本 上 可 
以 得 到 83. 977% 的 预测 准确 性 。 而 且 . 平 均 精度 、 召 回 率 和 Fl 指标 ,分 别 是 0. 86,0. 84 
以 及 0.82, 

接 下 来 ,让 我 们 使 用 与 代码 56 相同 的 训练 和 测试 数据 ,在 不 去 掉 停 用 词 的 条 件 下 利 
用 TfidfVectorizer 进行 特征 量化 ,并 且 评 估 模 型 性 能 。 


[ =s 使 用 Tidrvectorizer 并 且 不 去 掉 停 用 词 的 条 件 下 ,对 文本 特征 进行 量化 
的 朴素 贝 叶 斯 分 类 性 能 测试 


>>># 从 skleam.feature extracticn.text 里 分 别 导 入 TFidfvectorizer, 


>>> from skleam. feature extraction.text import TfidfVectorizer 

>>># 采 用 默认 的 配置 对 TfidPvectorizer 进 行 初始 化 (默认 配置 不 去 除 英文 停 用 词 ) ,并 且 赋 值 给 
变量 tfidf vec, 

>>>tfidf vec=TridrVectorizer() 


>>> 4 Ë JH tfidf 的 方式 ,将 原始 训练 和 测试 文本 转化 为 特征 向 量 。 
>>>X tfidf train-tfidf vec.fit transform(X train) 
>>>X tfidf test-tfidf vec.transform(X test) 


>>># 依 然 使 用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 相同 的 训练 和 测试 数据 上 ,对 新 的 特征 量化 方 
式 进行 性 能 评估 。 
>>>mb tfidf=MiltinomialNB() 
>>>Imb tfidf.fit(X tfidf train, y train) 
>>> print 'The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without 
filtering stopwords) :', mb tfidf.score(X tfidf test, y test) 
>>>y tfidf predict-mmb tfidf.predict(X tfidf test) 
>>> print classification report(y test, y tfidf predict, target names-news.target names) 
The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without filtering 
stopwords) : 0.846349745331 


precision recall fl- score ‘support 

alt.atheism 0.84 0.67 0.75 201 
conp.graphics 0.85 0.74 0.79 250 
camp.os.ms- windows misc 0.82 0.85 0.83 248 
carp.sys.ikhm.pc.hardware 0.76 0.88 0.82 240 
camp. sys.mac.hardware 0.94 0.84 0.89 242 
comp. windows .x 0.96 0.84 0.89 263 
misc.forsale 0.93 0.69 0.79 257 

rec.autos 0.84 0.22 0.88 238 
rec.mxtorcycles 0.98 0.92 0.95 276 
rec.sport.baseball 0.96 0.91 0.94 251 
rec.sport.hockey 0.88 0.99 0.93 23 
Sci.crypt 0.73 0.98 0.83 238 
sci.electronics 0.91 0.83 0.87 249 


Pyha 机 器 学 习 及 实践 


scimed 0.97 0.92 0.95 245 
sci.space 0.89 0.96 0.93 z 
soc.religion.christian 0.51 0.97 0.67 2 
talk.politics.guns 0.83 0.96 0.89 251 
talk.politics mideast 0.92 0.97 0.95 231 
talk.politics.misc 0.98 0.2 0.76 188 
talk.religicn.misc 0.93 0.16 0.28 158 
aw / total 0.87 0.85 0.84 4n2 


| 


由 上 述 代码 的 输出 结果 ,可 得 出 结论 : 在 使 用 TfidfVectorizer 而 不 去 掉 停 用 词 的 条 


件 下 ,对 训练 和 测试 文本 进行 特征 量化 .并 利用 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,在 测试 文 
本 上 可 以 得 到 比 CountVectorizer 更 加 高 的 预测 准确 性 , 即 从 83. 977% 提 升 到 84. 635%. 
而 且 , 平 均 精 度 .召回 率 和 Fl 指标 都 得 到 提升 ,分 别 是 0.87.0. 85 以 及 0. 84。 从 而 ,证 明 
了 前 面 叙 述 的 观点 :“ 在 训练 文本 量 较 多 的 时 候 , 利 用 TfidfVectorizer 压制 这 些 常 用 词汇 
的 对 分 类 决策 的 干扰 ,往往 可 以 起 到 提升 模型 性 能 的 作用 ”。 


最 后 ,让 我 们 使 用 下 面 的 代码 继续 验证 另 一 个 观点 :“ 这 些 停 用 词 (Stop Words) fE X: 


本 特征 抽取 中 经 常 以 黑 名 单 的 方式 过 滤 掉 ,并 且 用 来 提高 模型 的 性 能 表现 ”。 


[ «9 58: 分 别 使 用 CountVectorizer 5j TfidfVectorizer, 并 且 去 掉 停 用 词 的 条 件 下 ， 


对 文本 特征 进行 量化 的 朴素 贝 叶 斯 分 类 性 能 测试 


>>>+# 继 续 沿用 代码 56 与 代码 7 中 导入 的 工具 包 ( 在 同一 份 源 代码 中 或 者 不 关闭 解释 器 环境 )， 
分 别 使 用 停 用 词 过 滤 配 置 初始 化 Countvectorizer 与 TfidfVectorizer, 

>>> count_filter_vec, tfidf filter vec- CountVectorizer (analyzer- 'word', stop words- 'english'), 
TfidfVectorizer(analyzer- 'word', stop words- 'english') 


>>># 使 用 带 有 停 用 词 过 滤 的 countvectorizer 对 训练 和 测试 文本 分 别 进行 量化 处 理 。 
>>>X oant filter train-count filter vec.fit transform(X train) 
>>>X_comnt_filter_test=count_filter_vec.transform( test) 


>>># 使 用 带 有 停 用 词 过 滤 的 Tfidfvectorizer 对 训练 和 测试 文本 分 别 进行 量化 处 理 。 
>>>X tfidf filter train-tfidf filter vec.fit transform(X train) 
>>>X tfidf filter test=tfidf filter vec.transform test) 


>>># 初 始 化 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,并 对 countvectorizer 后 的 数据 进行 预测 与 准确 性 评 
fh. 


>>>mb count filter-MiltinamialNB 0 

>>>mb count filter.fit(X count filter train, y train) 

>>> print "The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer by filtering 
stopwords) :', mb count filter.score(X count filter test, y test) 

>>> y_count filter predict-mmb count filter.predict(X cant filter test) 


>>># 初 始 化 另 一 个 默认 配置 的 朴素 贝 叶 斯 分 类 器 ,并 对 TEidtVectorizer Jš B 38 iE ++ 808 55 fE 
确 性 评估 。 

>>>mrb tfidf filter=MiltinmialNB 0 

>>>mmb tfidf filter.fit(X tfidf filter train, y train) 

>>> print "The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by filtering 
stopwords) :', mb tfidf filter.score(X tfidf filter test, y test) 

>>>y tfidf filter predict-mrb tfidf filter.predict(X tfidf filter test) 


>>># 对 上 述 两 个 模型 进行 更 加 详细 的 性 能 评估 。 

>>> from sklearn.metrics import classification report 

»»»print classification report (y test, y count filter predict, target names-news.target names) 
>>> print classification report (y test, y tfidf filter predict, target names-news.target names) 


The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer by filtering stopwords) : 
0.863752122241 
The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer by filtering stopwords) : 0. 


precision recall fl- score support 

alt.atheism 0.85 0.89 0.87 201 
camp.graphics 0.62 0.88 0.73 250 
comp.os.ms— windows misc 0.93 0.22 0.36 248 
comp. sys.ibm.pe.hardware 0.62 0.88 0.73 240 
comp. sys mac.hardware 0.93 0.85 0.89 242 
comp. windows x 0.82 0.85 0.84 263 

misc. forsale 0.90 0.79 0.84 257 

rec.autos 0.91 0.91 0.91 238 


Pyha 机 器 学 习 及 实践 
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代码 58 的 输出 依旧 证 明 Tfidf Vectorizer 的 特征 抽取 和 量化 方法 更 加 具备 优势 ; 同 
时 ,通过 与 代码 56 和 代码 57 的 性 能 比较 ,我 们 发 现 : 对 停 用 词 进行 过 滤 的 文本 特征 抽取 
方法 ,平均 要 比 不 过 滤 停 用 词 的 模型 综合 性 能 高 出 396—496. 


3.1.1.2 特征 第 选 


读者 在 实践 了 本 书 的 一 些 数据 样 例 之 后 ,一 定 对 如 何 有 效 地 利用 数据 特征 有 自己 的 
心得 体会 。 总 体 来 讲 ,良好 的 数据 特征 组 合 不 需 太 多 , 便 可 以 使 得 模型 的 性 能 表现 突出 。 
比如 ,我 们 在 第 1 章 的 “ 良 / 恶 性 乳腺 瘤 肿瘤 预测 问题 中 ,仅仅 使 用 两 个 描述 肿瘤 形态 的 
特征 便 可 以 取得 很 高 的 识别 率 。 宛 余 的 特征 虽然 不 会 影响 到 模型 的 性 能 ,不 过 却 使 得 
CPU 的 计算 做 了 无 用 功 。 比 如 , 主 成 分 分 析 主要 用 于 去 除 多 余 的 那些 线性 相关 的 特征 组 
合 ,原因 在 于 这 些 元 余 的 特征 组 合并 不 会 对 模型 训练 有 更 多 贡献 。 而 不 良 的 特征 自然 会 
降低 模型 的 精度 。 

特征 筛选 与 PCA 这 类 通过 选择 主 成 分 对 特征 进行 重建 的 方法 略 有 区 别 : 对 于 PCA 
而 言 ,我 们 经 常 无 法 解释 重建 之 后 的 特征 ;但 是 特征 筛选 不 存在 对 特征 值 的 修改 ,而 更 加 
侧重 于 寻找 那些 对 模型 的 性 能 提升 较 大 的 少量 特征 。 

这 里 我 们 在 代码 59 中 继续 沿用 Titanic 数据 集 , 这 次 试图 通过 特征 筛选 来 寻找 最 佳 
的 特征 组 合 , 并 且 达 到 提高 预测 准确 性 的 目标 。 


[ RE 59; 使 用 Titanio 数据 集 , 通 过 特征 和 选 的 方法 一 步 步 提升 决策 树 的 预测 性 能 


>>># 导 人 Pandas 并 且 更 名 为 pa. 

>>> import pandas as pd 

>>># 从 互联 网 读 取 titanic HIE. 

>>> titanic= pd.read csv ('http://biostat ¢mc. vanderbilt .edu/wiki /pub/Main/Datasets/titanic.txt") 


>>># 分 离 数 据 特征 与 预测 目标 。 
>>> y-titanic['survived'] 
>>> X= titanic.drop({'row.nanes', 'name', 'survived'], axis=1) 


>>># 对 对 缺失 数据 进行 填充 。 
>>>X['age'] .fillna K['age'] .mean(), inplace- True) 
>>> X.fillina (‘UNKNOW', inplace- True) 


>>>+ 分 割 数 据 , 依 然 采 样 25s 用 于 测试 。 
>>> from skleam.cross validation import train test split 


>>>X train, X test, y train, y test= train test split(X, y, test size-0.25, randam state- 33) 


>>># 类 别 型 特征 向 量化 。 

>>> from sklearn.feature extraction import DictVectorizer 

>>> vec= DictVectorizer () 

>>>X train-wec.fit transform(X train.to dict (orient= 'record')) 
>>> X_test= vec.transform(X test.to dict(orient- 'record")) 


>>># 输 出 处 理 后 特征 向 量 的 维度 。 
>>> print len(vec.feature names ) 
44 


>>># 使 用 决策 树 模型 依靠 所 有 特征 进行 预测 ,并 作 性 能 评估 。 
>>> from sklearn.tree inport DecisionfreeClassifier 

>>> dt= DecisionTreeClassifier (criterion= 'entropy') 

>>>dt.fit X train, y train) 

»»»dt.score(X test, y test) 

0.81762917933130697 


>>># 从 skleam 导 入 特征 筛选 器 。 

>>> from skleam import feature selection 

>>># 筛 选 前 20% 的 特征 ,使 用 相同 配置 的 决策 树 模型 进行 预测 ,并 且 评估 性 能 。 
>>> fs feature selecticn.SelectPercentile (feature selecticn.dhi2, percentile=20) 
>>>X train fs-fs.fit transform(X train, y train) 

»»»dt.fit(X train fs, y train) 

>>> X_test_fs= fs.transform( test) 

>>> dt.score X test fs, y test) 

0.82370820668693012 


>>># 通 过 交叉 验证 (下 一 节 将 详细 介绍 ) 的 方法 ,按照 固定 间隔 的 百分比 筛选 特征 ,并 作 图 展示 
性 能 随 特征 筛选 比例 的 变化 。 

>>> frm skleam.cross validation import cross val score 

>>> import numpy as rp 


>>> percentiles= range (1, 100, 2) 
>>> results [] 


>>> for i in percentiles: 

>>> fs-feature selection.SelectPercentile (feature selection.chi?, percentile- i) 
>>> X train fs-fs.fit transform(X train, y train) 

» Scores-cross val score(dt, X train fs, y train, cv-5) 

>>> Tesults=np.append (results, scores.mean () ) 

>>> print results 


>>># 找 到 提现 最 佳 性 能 的 特征 筛选 的 百分比 。 
>>> opt= np.where (results == results.max ()) [0] 
>>> print 'Optimal number of features $d' % percentiles [opt] 


[ 0.85063904 0.85673057 0.87501546 0.88622964 0.86692435  0.86693465 
0.86690373 0.87100598 0.87097506 0.86996496 0.87200577 0.86995465 
0.86997526  0.86183261 0.86690373 0.858792 0.86386312 0.8648423 
0.86283241  0.86286333 0.86384251 0.86384251 0.86895485 0.86488353 
0.86386312 0.86895485 0.86995465 0.87199546 0.86489384  0.86892393 

9 0.86791383 0.86993403 

0.87301567 0.86285302 

0.86287363 0.8597918 


>>> import pylab as pl 

>>> pl.plot (percentiles, results) 

>>> pl.xlabel ("percentiles of features') 
>>> pl.ylabel ("accuracy") 

»»»pl.show() 


>>>+# 使 用 最 佳 筛选 后 的 特征 ,利用 相同 配置 的 模型 在 测试 集 上 进行 性 能 评估 。 
>>> fram skleam import feature selection 
>>> fs= feature_selection.SelectPercentile (feature _selection.chi2, percentile- 7) 


>>>X train fs-fs.fit transfomm(X train, y train) 
>>> dt.fit X train fs, y train) 

>>>X_test_fs= fs.transform(X test) 

»»»dt.score(X test fs, y test) 


0.8571428571428571 _ 


通过 代码 59 中 的 几 个 关键 输出 ,我 们 可 以 总 结 如 下 : 

(1) 经 过 初步 的 特征 处 理 后 ,最 终 的 训练 与 测试 数据 均 有 474 个 维度 的 特征 ; 

(2) 如 果 直 接 使 用 全 部 474 个 维度 的 特征 用 于 训练 决策 树 模型 进行 分 类 预测 ,那么 
模型 在 测试 集 上 的 准确 性 约 为 81. 76%; 

(3) 如 果 筛 选 前 20% 维 度 的 特征 ,在 相同 的 模型 配置 下 进行 预测 ,那么 在 测试 集 上 表 
现 的 准确 性 约 为 82. 37%; 

(4) 如 果 我 们 按照 固定 的 间隔 采用 不 同 百 分 比 的 特征 进行 训练 与 测试 ,那么 如 图 3-1 
所 示 ,通过 3. 1.3. 2 交叉 验证 得 出 的 准确 性 有 着 很 大 的 波动 ,并 且 最 好 的 模型 性 能 表现 在 
选取 前 7% 维 度 的 特征 的 时 候 ; 

(5) 如 果 使 用 前 ?7% 维度 的 特征 ,那么 最 终 决策 树 模型 可 以 在 该 分 类 预测 任务 的 测试 
集 上 表现 出 85.71% 的 准确 性 , 比 起 最 初 使 用 全 部 特征 的 模型 性 能 高 出 接近 4 个 百分点 。 
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图 3-1 代码 59 中 ,模型 交叉 验证 的 准确 性 随 特 征 筛选 百分比 的 变化 曲线 


3.1.2 模型 正则 化 


本 书 一 直 在 向 读者 们 申明 一 个 重要 观点 : 任何 机 器 学 习 模型 在 训练 集 上 的 性 能 表 
现 ,都 不 能 作为 其 对 未 知 测试 数据 预测 能 力 的 评估 。 并 且 ,我 们 从 最 开始 1. 1 机 器 学 习 综 
述 中 就 向 大 家 强调 过 要 重视 模型 的 泛 化 力 (Generalization) ,只 是 没有 过 多 地 展开 讨论 。 
这 一 节 , 我 们 将 详细 解释 什么 是 模型 的 泛 化 力 , 以 及 如 何 保证 模型 的 泛 化 力 。3. 1. 2.1 欠 
拟 合 与 过 拟 合 将 首先 阐述 模型 复杂 度 与 泛 化 力 的 关系 ; 紧 接着 ,3.1.2.2L; 范 数 正则 化 与 
3.1.2. 3 La 范 数 正则 化 将 分 别 介绍 如 何 使 用 这 两 种 正则 化 (Regularization ) 的 方式 来 加 
强 模型 的 泛 化 力 , 避 免 模型 参数 过 拟 合 (Overfitting) 。 


3.1.2.1 欠 拟 合 与 过 拟 合 
所 谓 拟 合 , 是 指 机 器 学 习 模 型 在 训练 的 过 程 中 ,通过 更 新 参数 ,使 得 模型 不 断 契 合 可 
观测 数据 (训练 集 ) 的 过 程 。 本 节 ,我 们 将 使 用 一 个 "比萨 饼 价 格 预测 的 例子 来 说 明 。 如 
表 3-1 所 示 ,美国 一 家 比萨 饼 店 出 售 不 同 尺寸 的 比萨 ,其 中 每 种 直径 (Diameter) 都 对 应 一 
个 报价 。 我 们 所 要 做 的 ,就 是 设计 一 个 学 习 模型 ,可 以 有 效 地 根据 表 3-2 中 比萨 的 直径 特 
征 来 预测 售 价 。 
表 3-1 美国 某 比萨 饼 店 已 知 训练 数据 


Training Instance Diameter (in inches) Price(in U. S. dollars) 
1 6 7 
2 8 9 
3 10 13 
4 14 17.5 
5 18 18 


R32 美国 某 比萨 饼 店 未 知 测试 数据 


Testing Instance Diameter (in inches) Price(in U. S. dollars) 
1 6 2 
2 8 2 
3 n ? 


4 16 ? 


目前 我 们 所 知 , 共 有 5 组 训练 数据 ,4 ELI CCS 3f R Ed 
An. Wd 


直观 ,如 代码 60 所 示 。 


[ *9 60, 使 用 线性 回归 模型 在 比萨 训练 样本 上 进行 拟 合 


测试 数据 的 比萨 报价 未 


我 们 的 经 验 , 如 果 只 考虑 比萨 的 尺寸 与 售 价 的 关系 ,那么 使 用 线性 回归 模型 比较 


>>># 输 入 训练 样本 的 特征 以 及 目标 值 ,分 别 存储 在 变量 x train 与 y train 之 中 。 


>>>X trair [[6], [8], [10], [14], [18]] 
>>>Y trainr [[7), [9], [13], [17.5], [18]] 


>>># 从 sklsam.linear model 中 导入 LinearRegression, 
>>> from sklearn.linear model import LinearRegression 
>>># 使 用 默认 配置 初始 化 线性 回归 模型 。 

>>> regressor= LinearRegression () 

>>># 直 接 以 比萨 的 直径 作为 特征 训练 模型 。 

>>> regressor.fit X train, y train) 


>>> # A. numpy 并 且 重 命名 为 rp. 

>>> import numpy as rp 

>>># 在 x 轴 上 从 0 至 25 均 匀 采 样 100 个 数据 点 。 
>>> xx= mp.Linspace(0, 26, 100) 

>>> xx= xx. reshape (xx.shape[0], 1) 

>>> # 以 上 述 100 个 数据 点 作为 基准 ,预测 回归 直线 。 
>>> yy= regressor predict (xx) 


>>># 对 回归 预测 到 的 直线 进行 作 图 。 
>>> inport matplotlib.pyplot as plt 
»»»plt.scatter(X train, y train) 


>>>pltl,=plt.plot (xx, yy, label= "Degree- 1") 


>>>plt.axis ([0, 25, 0, 25]) 

>>> plt.xlabel ("Diameter of Pizza") 
>>>plt.ylabel ("Price of Pizza') 
>>> plt.legend (handles= [plt1]) 
>>>pilt.show() 


>>># 输 出 线性 回归 模型 在 训练 样本 上 的 R- squared (Ë , 


Rom HME 


>>> print 'The R- squared value of Linear Regressor performing on the training data is', regressor. 
Score(X train, y train) 
The R- squared value of Linear Fegressor performing on the training data is 0.910001596424 


根据 代码 60 所 输出 的 图 3-2, 以 及 当前 模型 在 训练 集 上 的 表现 (R-squared 值 为 
0. 9100) ,我 们 进一步 猜测 ,也 许 比 萨 饼 的 面积 与 售 价 的 线性 关系 9 更 加 明显 。 因 此 ,我 们 
试图 将 原 特征 升 高 一 个 维度 ,使 用 (2 次 ) 多 项 式 回归 (Polynominal Regression) Xf ill 4f FÉ 
本 进行 拟 合 ,继续 如 代码 61 所 示 。 
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图 3-2 线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情况 ( 见 彩 图 ) 


| 代码 61: 使 用 2 次 多 项 式 回归 模型 在 比萨 训练 样本 上 进行 拟 合 


>>># 从 skleam.preproessing 中 导入 多 项 式 特征 产生 器 
>>> frm sklearn.preprocessing import PolynamialFeatures 
>>># 使 用 Polynaminal Features (degree- 2) Bi 84 i. 2 次 多 项 式 特征 ,存储 在 变量 x train poly2 中 。 


四 ”拓展 小 贴 士 23: 尽管 我 们 在 代码 61 中 依然 使 用 线性 回归 器 作为 模型 基础 ,但 是 由 于 我 们 将 特征 上 升 到 多 项 式 层面 ,因此 通常 我 
们 称 这 类 模型 为 多 项 式 回归 (Polynomial Regression ) 。 


>>> poly2= Polynamial Features (degree- 2) 
>>>X train poly2-poly2.fit transform train) 


>>> # 以 线性 回归 器 为 基础 ,初始 化 回归 模型 。 尽 管 特征 的 维度 有 提升 ,但 是 模型 基础 仍然 是 线 
性 模型 。 
>>> regressor poly2- LinearFegression () 


>>># 对 2 次 多 项 式 回归 模型 进行 训练 。 
>>> regressor poly2.fit X train poly2, y train) 


>>># 从 新 映射 绘图 用 x 轴 采样 数据 。 
>>> Xx poly2- poly2.transform(xx) 


>>># 使 用 2 次 多 项 式 回归 模型 对 应 x 轴 采样 数据 进行 回归 预测 。 
>>> yy poly2- regressor poly2.predict (xx poly2) 


>>># 分 别 对 训练 数据 点 ,线性 回归 直线 .2 次 多 项 式 回归 曲线 进行 作 图 。 
»»»plt.scatter(X train, y train) 


>>>pltl,=plt.plot (xx, yy, label= 'Degree- 1') 
»»»plt2,- plt.plot(xx, yy poly2, label= 'Degree- 2") 


>>> plt.axis([0, 25, 0, 25]) 

>>> plt.xlabel ("Diameter of Pizza") 
>>> plt.ylabel ("Price of Pizza') 
>>>pilt.legend (handles= [plt1, p1t2]) 
>>> plt.show() 


>>># 输 出 2 次 多 项 式 回归 模型 在 训练 样本 上 的 R- squared ff . 
>>> print "The R- squared value of Polynaminal Regressor (Degree= 2) performing on the training data is 
', regressor poly2.score(X train poly2, y train) 


The R- squared value of Polynominal Regressor (Degree= 2) performing on the training data is 
0.98164216396 


果然 ,在 升 高 了 特征 维度 之 后 ,2 次 多 项 式 回 归 模 型 在 训练 样本 上 的 性 能 表现 更 加 突 
出 ,R-squared 值 从 0. 910 上 升 到 0. 982。 并 且 根 据 代码 61 所 输出 的 图 3-3 所 示 ,2 次 多 
项 式 回归 曲线 (绿色 ) 比 起 线性 回归 直线 ( 蓝 色 ) ,对 训练 数据 的 拟 合 程度 也 增加 了 许多 。 
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图 3-3 2 次 多 项 式 回归 与 线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情 况 比较 ( 见 彩 图 ) 
由 此 ,我 们 更 加 大 胆 地 进一步 升 高 特征 维度 ,如 代码 62 所 示 ,增加 到 4 次 多 项 式 。 


[ ss 使 用 4 次 多 项 式 回归 模型 在 比萨 训练 样本 上 进行 拟 全 


>>># 从 skleam.preprocessing 导 人 多 项 式 特 征 生成 器 。 
>>> frm sklearn.preprocessing import PolyncmialFeatures 
>>># 初 始 化 4 次 多 项 式 特征 生成 器 。 

>>> poly4= FolynamialFeatures (degree- 4) 

>>>X train Poly4- poly4.fit transform(X train) 


>>># 使 用 默认 配置 初始 化 4 次 多 项 式 回归 器 。 


>>> regressor_poly4= LinearFegressicn () 
>>># 对 4 次 多 项 式 回归 模型 进行 训练 。 


>>> regressor po1y4.fit X train poly4, y train) 


>>># 从 新 映射 绘图 用 zx 轴 采 样 数据 。 

>>> xx poly4- poly4.transform(xx) 

>>># 使 用 4 次 多 项 式 回 归 模 型 对 应 x 轴 采样 数据 进行 回归 预测 。 
>>> yy poly&-regressor poly4.predict (x poly4) 


>>> + 分别 对 训练 数据 点 ,线性 回归 直线 、2 次 多 项 式 以 及 4 次 多 项 式 回归 曲线 进行 作 图 。 
>>>plt.scatter X train, y train) 

>>>pltl,=plt.plot (xx, yy, label= 'Degree- 1") 

>>>Pp1t2,=plt.plot x, yy poly2, label= 'Degree- 2") 


»»»plt4,-plt.plot(xx, yy poly4, label= 'Degree- 4") 
>>>plt.axis([0, 25, 0, 25]) 

>>> plt.xlabel ("Diameter of Pizza!) 

>>> pit. ylabel ("Price of Pizza") 

>>> pt. legend (handles= [pltl, plt2, plt4]) 
»»»plt.show( 


>>> print "The R- squared value of Polynaminal Regressor (Degree- 4) performing on the training data is 


',regressor poly4.score(X train poly4, y train) 
‘The R- squared value of Polynaminal Regressor (Degree- 4) performing on the training data is 1.0 


如 图 3-4 所 示 ,4 次 多 项 式 曲线 几乎 完全 拟 合 了 所 有 的 训练 数据 点 ,对 应 的 


R-squared 值 也 为 1. 0。 但 是 ,如 果 这 时 觉得 已 经 找到 了 完美 的 模型 ,那么 显然 是 高 兴 过 
RT. 
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图 3-4 4 次 多 项 式 回归 与 其 他 模型 在 比萨 训练 样本 上 的 拟 合 情 况 比较 


# 3-3 揭示 了 测试 比萨 的 真实 价格 。 
表 3-3 美国 某 比萨 饼 店 真实 测试 数据 


Testing Instance Diameter (in inches) Price(in U. S. dollars) 
1 6 8 
š 8 12 
3 11 15 
4 16 18 


EZ 63: 评估 3 种 回归 模型 在 测试 数据 集 上 的 性 能 表现 


>>> 准备 测试 数据 。 
>>>X_test= [[6], [8], [11], [16]] 
>>>Y test- [[8], [12], [15], [181] 


>>>+# 使 用 测试 数据 对 线性 回归 模型 的 性 能 进行 评估 。 
>>> regressor.score X test, y test) 
0.80972683246686095 


>>># 使 用 测试 数据 对 2 次 多 项 式 回归 模型 的 性 能 进行 评估 。 
»»»X test poly2- poly2.transform(X test) 

>>> regressor_poly2.scone (x test poly2, y test) 
0.86754436563450543 


>>># 使 用 测试 数据 对 4 次 多 项 式 回归 模型 的 性 能 进行 评估 。 

>>>X test poly4= poly4.transfomm(x test) 

>>> regressor poly4.score(X test poly4, y test) 

0.8095880795781909 _| 


如 果 我 们 使 用 代码 63 评估 上 述 3 种 模型 在 测试 集 上 的 表现 ,并 将 输出 对 比 之 前 在 训 
练 数据 上 的 拟 合 情 况 , 制 成 表 3-4; 最 终 的 结果 却 令 人 咋舌 : 当 模 型 复杂 度 很 低 (Degree 一 
1) 时 ,模型 不 仅 没有 对 训练 集 上 的 数据 有 良好 的 拟 合 状态 ,而且 在 测试 集 上 也 表现 平平 ， 
这 种 情况 叫做 欠 拟 合 (Underfitting) ;但 是 , 当 我 们 一 味 追 求 很 高 的 模型 复杂 度 (Degree 一 
4) ,尽管 模型 几乎 完全 拟 合 了 所 有 的 训练 数据 ,但 如 图 3-4 所 示 ,模型 也 变 得 非常 波动 , 几 
乎 丧失 了 对 未 知 数据 的 预测 能 力 , 这 种 情况 叫做 过 拟 合 (Overfitting)。 这 两 种 情况 都 是 
缺乏 模型 泛 化 力 的 表现 。 


R34 美国 某 比萨 饼 店 真实 测试 数据 


TEES RE WAKE R-squared fff 测试 集 R-squared fi 
Degree=1 0. 9100 0. 8097 
Degree=2 0, 9816 0. 8675 
Degree—4 1.0000 0. 8096 


由 此 可 见 ,虽然 我 们 不 断 追 求 更 好 的 模型 泛 化 力 ,但 是 因为 未 知 数据 无 法 预测 ,所 以 
又 期 望 模型 可 以 充分 利用 训练 数据 ,避免 欠 拟 合 。 这 就 要 求 在 增加 模型 复杂 度 .提高 在 可 
观测 数据 上 的 性 能 表现 的 同时 ,又 需要 兼顾 模型 的 泛 化 力 , 防 止 发生 过 拟 合 的 情况 。 为 了 
平衡 这 两 难 的 选择 ,我 们 通常 采用 两 种 模型 正则 化 的 方法 ,分 别 是 3. 1. 2. 2 La 范 数 正则 
化 与 3. 1.2. 3 L, 范 数 正则 化 。 


3.1.2.2 心 范 数 正则 化 


正则 化 (Regularization) 的 目的 在 于 提高 模型 在 未 知 测试 数据 上 的 泛 化 力 , 避 免 参数 
过 拟 合 。 由 上 一 节 的 “比萨 饼 价 格 预测 ”的 例子 可 以 看 出 ,2 次 多 项 式 回归 是 相对 较 好 的 
模型 假设 。 之 所 以 出 现 如 4 次 多 项 式 那样 的 过 拟 合 情 景 ,是 由 于 4 次 方 项 对 应 的 系数 过 
大 ,或 者 不 为 0 所 导致 。 

因此 ,正则 化 的 常见 方法 都 是 在 原 模型 优化 目标 的 基础 上 ,增加 对 参数 的 惩罚 
(Penalty) 项 。 以 我 们 在 2. 1. 2. 1 线性 回归 器 一 节 中 介绍 过 的 最 小 二 乘 优化 目标 为 例 ( 参 
AX (13)) ,如 果 加 入 对 模型 的 L, 范 数 正则 化 ,那么 新 的 线性 回归 目标 如 式 (20) Bem o 

argmin L (w,b) = argnin S. (fF Qr xsb)— y)! HA lwla (20) 

也 就 是 说 ,在 原 优化 目标 的 基础 上 ,增加 了 参数 向 量 的 工 范 数 。 如 此 一 来 ,在 新 目标 优化 
的 过 程 中 ,也 同时 需要 考量 L, 惩罚 项 的 影响 。 为 了 使 目标 最 小 化 ,这 种 正则 化 方法 的 结 
果 会 让 参数 向 量 中 的 许多 元 素 趋向 于 0, 使 得 大 部 分 特征 失去 对 优化 目标 的 贡献 。 而 这 
种 让 有 效 特征 变 得 稀疏 (Sparse) 的 Ly 正则 化 模型 ,通常 被 称 为 Lasso, 

接 下 来 ,代码 64 让 我 们 在 上 一 节 例子 的 基础 上 ,继续 使 用 4 次 多 项 式 特征 ,但 是 换 成 
Lasso 模型 检验 L, 范 数 正则 化 后 的 性 能 和 和 参数 。 


| 代码 64: Lasso 模型 在 4 次 多 项 式 特征 上 的 拟 合 表现 
>>># 从 sklearn.linear model 中 导入 Lasso, 
>>> fram skleam. Linear model import Lasso 


>>># 从 使 用 默认 配置 初始 化 Lasso. 

>>> lasso poly& Lasso () 

>>># 从 使 用 Iasso 对 4 次 多 项 式 特征 进行 拟 合 。 
>>> lasso poly4.fit X train poly4, y train) 


>>># 对 Iasso 模 型 在 测试 样本 上 的 回归 性 能 进行 评估 。 
>>>print lasso poly4.score(X test poly4, y test) 
0.83889268736 


>>> #4 tB Iasso 模 型 的 参数 列表 。 
>>> print lasso poly4.coef - 


[ 10.000000008- 00 0.00000000e* 001.17900534e- O1 — 5.42646770e- 05 
= 2,23027128e- 04] 


>>># 回 顾 普 通 4 次 多 项 式 回归 模型 过 拟 合 之 后 的 性 能 。 
>>> print regressor poly4.score(X test poly4, y test) 


0.809588079578 


>>># 回 顾 普通 4 次 多 项 式 回归 模型 的 参数 列表 。 
>>> print regressor poly4.coef - 


[[ 0.00000000e+ 00 -2.51739583e+ Ol 3,68906250e+ 00 - 2.12760417e- Ol 
4.29687500e- 03]] | 
通过 对 代码 64 一 系列 输出 的 观察 ,验证 了 我 们 所 介绍 的 Lasso 模型 的 一 切 特点 : 
CD 相 比 于 普通 4 次 多 项 式 回归 模型 在 测试 集 上 的 表现 ,默认 配置 的 Lasso 模型 性 

能 提高 了 大 约 3⁄4; 

(2) 相 较 之 下 ,Lasso 模型 拟 合 后 的 参数 列表 中 ,4 次 与 3 次 特征 的 参数 均 为 0. 0, 使 

得 特征 更 加 稀 朴 。 


3.1.2.3 Ls 范 数 正则 化 


与 Li 范 数 正则 化 略 有 不 同 的 是 , L, 范 数 正则 化 则 在 原 优 化 目标 的 基础 上 ,增加 了 参 
数 向 量 的 L; 范 数 的 惩罚 项 ,如 公式 (21) 所 示 。 为 了 使 新 优化 目标 最 小 化 ,这 种 正则 化 方 


法 的 结果 会 让 参数 向 量 中 的 大 部 分 元 素 都 变 得 很 小 ,压制 了 参数 之 间 的 差异 性 。 而 这 种 


压制 参数 之 间 差 异性 的 Lo 正则 化 模型 ,通常 被 称 为 Ridge. 


k=1 


argmin L (w+) = argmin 2j (Fi kb)— y)! +a | Iw] |: 


接 下 来 ,代码 65 让 我 们 在 3.1.2. 1 从 拟 合 与 过 拟 合 一 节 例子 的 基础 上 ,继续 使 用 4 
次 多 项 式 特征 ,但 是 换 成 Ridge 模型 检验 L, 范 数 正则 化 后 的 性 能 和 参数 。 


[ «9 65; Ridge 模型 在 4 次 多 项 式 特征 上 的 拟 合 表现 


>>>+ 输 出 普通 4 次 多 项 式 回归 模型 的 参数 列表 。 

>>> print regressor poly4.coef - 

[[ 0.00000000e+ 00 -2.51739583e+01  3.68906250e+ 00 - 2.12760417e- 01 
4.296875006- 03]] 


>>># 输 出 上 述 这 些 参 数 的 平方 和 ,验证 参数 之 间 的 巨大 差异 。 
>>> print np.sum(regressor Poly4.coef * * 2) 
47. 382645692 


>>> JA skleam. linear model 导入 Ridge, 
>>> from sklearn.linear model import Ridge 
>>># 使 用 默认 配置 初始 化 Riede. 

>>> ridge poly Ride 0 


>>># 使 用 Ridge 模 型 对 4 次 多 项 式 特征 进行 拟 合 。 
>>> ridge poly4.fit(X train poly4, y train) 


>>>+ 输 出 Ridge 模 型 在 测试 样本 上 的 回归 性 能 。 

>>> print ridge poly4.score(X test poly4, y test) 

0.837420175937 

>>># 输 出 Ridge 模 型 的 参数 列表 ,观察 参数 差异 。 

>>>print ridge poly4.coef_ 

[t 0. —0.00492536 0.12439632 -0.00046471 -0.00021205]] 


>>># 计 算 Ridge 模 型 拟 合 后 参数 的 平方 和 。 
>>> print np.sum(ridge poly4.coef * * 2) 
0.0154989652036 


通过 我 们 对 代码 65 一 系列 输出 的 观察 ,可 以 验证 Ridge 模型 的 


一 切 特点 : 


(21) 


-l 


CD 相 比 于 普通 4 次 多 项 式 回归 模型 在 测试 集 上 的 表现 ,默认 配置 的 Ridge 模型 性 
能 提高 了 近 3%; 

(2) 与 普通 4 次 多 项 式 回 归 模 型 不 同 的 是 ,Ridge 模型 拟 合 后 的 参数 之 间 差 异 非 
常 小 。 

这 里 需要 额外 指出 的 是 ,不 论 是 公式 (20) 还 是 公式 (21) 中 的 惩罚 项 ,都 会 有 一 个 因子 
4 进行 调节 。 尽 管 4 不 属于 需要 拟 合 的 参数 , 却 在 模型 优化 中 扮演 非常 重要 的 角色 。 具 体 
RY A 的 解读 ,我 们 会 留待 后 续 的 章节 。 


3.1.3 模型 检验 


在 前 面 的 章节 中 ,时 不 时 地 提 到 模型 检验 或 者 交叉 验证 等 词汇 ,特别 是 在 对 不 同 模型 
的 配置 ,不同 的 特征 组 合 ,在 相同 的 数据 和 任务 下 进行 评价 的 时 候 。 究 其 原因 ,相信 很 多 
读者 通过 阅读 前 面 的 章节 ,已 经 感受 到 仅仅 使 用 默认 配置 的 模型 与 不 经 处 理 的 数据 特征 ， 
在 大 多 数 任务 下 是 无 法 得 到 最 佳 性 能 表现 的 。 因 此 ,在 最 终 交 由 测试 集 进行 性 能 评估 之 
前 ,我 们 自然 希望 可 以 尽 可 能 利用 手头 现 有 的 数据 对 模型 进行 调 优 , 甚 至 可 以 粗略 地 估计 
测试 结果 。 

在 这 里 需要 强调 的 是 : 尽管 本 书 在 许多 章节 中 所 使 用 的 测试 数据 是 由 我 们 从 原始 数 
据 中 采样 而 来 ,并 且 多 数 知晓 测试 的 正确 结果 ;但 是 这 仅仅 是 为 了 学 习 和 模拟 的 需要 。 
些 初学 者 因此 经 常 拿 着 测试 集 的 正确 结果 反复 调 优 模型 与 特征 ,从 而 可 以 发 现在 测试 集 
上 表现 最 佳 的 模型 配置 和 特征 组 合 。 这 是 极其 错误 的 行为 ! 

事实 上 , 当 读 者 翻阅 至 第 4 章 ,并 且 真 正在 竞赛 平台 上 实践 机 器 学 习 任 务 时 就 会 发 
现 ,您 只 可 以 提交 预测 结果 ,并 不 可 能 知晓 正确 答案 。 如 果 更 加 严格 一 些 ,只 给 大 家 一 次 
提交 预测 结果 的 机 会 ,那么 我 们 更 不 可 能 期 待 借助 测试 集 * 动 手脚 "。 这 就 要 求 我 们 充分 
地 使 用 现 有 数据 ,并 且 通 常 的 做 法 依然 是 对 现 有 数据 进行 采样 分 割 : 一 部 分 用 于 模型 参 
数 训练 ,叫做 训练 集 (Training set) ; 另 一 部 分 数据 集合 用 于 调 优 模型 配置 和 特征 选择 ,并 
且 对 未 知 的 测试 性 能 做 出 估计 ,叫做 开发 集 (Development set) 或 者 验证 集 (Validation 
set)D。 根 据 验 证 流程 复杂 度 的 不 同 ,模型 检验 方式 分 为 3. 1. 3. 1 留 一 验证 与 3.1. 3.2 交 
叉 验 证 。 


O 拓展 小 贴 士 24: 如 果 读者 在 量化 投资 公司 从 事 股票 预测 研究 ,你 所 能 获取 的 永远 是 过 去 股票 价格 的 走势 ,未 来 的 股票 价格 永远 是 
所 设计 模型 的 测试 ,并 且 机 会 只 有 一 次 。 虽 然 可 以 借 由 过 去 的 股票 价格 对 模型 进行 调 优 ,但 是 这 不 代表 自 认 为 通过 验证 的 优质 模型 一 定 
可 以 在 未 来 的 股票 市 场 大 赚 一 笔 。 要 对 未 来 抱 有 一 颗 “ 虔 诚 "的 心 , 因 为 不 会 知道 最 适合 测试 的 模型 配置 和 特征 组 合 ;你 所 能 做 的 ,只 能 是 


相信 当下 所 验证 的 ,并 把 剩 下 的 一 切 交 给 时 运 。 


3.1.3.1 留 一 验证 


留 一 验证 (Leave-one-out cross validation) 最 为 简单 ,就 是 从 任务 提供 的 数据 中 ,随机 
采样 一 定 比例 作为 训练 集 , 剩 下 的 * 留 做 ?验证 。 通 常 ,我 们 取 这 个 比例 为 7:3, 即 70% fE 
为 训练 集 , 剩 下 的 30% 用 做 模型 验证 。 不 过 ,通过 这 一 验证 方法 优化 的 模型 性 能 也 不 稳 
定 , 原 因 在 于 对 验证 集合 随机 采样 的 不 确定 性 。 因 此 ,这 一 方法 被 使 用 在 计算 能 力 较 弱 ， 
而 相对 数据 规模 较 大 的 机 器 学 习 发 展 的 早期 。 当 我 们 拥有 足够 的 计算 资源 之 后 ,这 一 验 
证 方法 进化 成 为 更 加 高 级 的 版 本 : 交叉 验证 。 


3.1.3.2 zx XE 


交叉 验证 (K-fold cross-validation) 可 以 理解 为 从 事 了 多 次 留 一 验证 的 过 程 。 只 是 需 
要 强调 的 是 ,每 次 检验 所 使 用 的 验证 集 之 间 是 互 斥 的 ,并 且 要 保证 每 一 条 可 用 数据 都 被 模 
型 验证 过 。 因 此 ,就 以 5 折 交 叉 验 证 (Five-fold cross-validation) Jy fi]. MF 3-5 所 示 。 
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图 3-5 5 折 交 叉 验证 过 程 示例 ,图 片 来 自 于 互联 网 


全 部 可 用 数据 被 随机 分 割 为 平均 数量 的 5 组 ,每 次 迭代 都 选取 其 中 的 1 组 数据 作为 
验证 集 , 其 他 4 组 作为 训练 集 。 

交叉 验证 的 好 处 在 于 ,可 以 保证 所 有 数据 都 有 被 训练 和 验证 的 机 会 ,也 尽 最 大 可 能 让 
优化 的 模型 性 能 表现 得 更 加 可 信 。 


3.1.4. 超 参数 搜索 


前 面 所 提 到 的 模型 配置 ,我 们 一 般 统称 为 模型 的 超 参数 (Hyperparameters), 如 K yt 
邻 算法 中 的 K 值 .支持 向 量 机 中 不 同 的 核 函 数 (Kernal) 等。 多 数 情况 下 , 超 参 数 的 选择 
是 无 限 的 。 因 此 在 有 限 的 时 间 内 ,除了 可 以 验证 人 工 预 设 几 种 超 参 数组 合 以 外 ,也 可 以 通 
过 启发 式 的 搜索 方法 对 超 参 数组 合 进 行 调 优 。 我 们 称 这 种 启发 式 的 超 参数 搜索 方法 为 


(D  http://stackoverflow. com/questions/31947183/how-to-implement-walk-forward-testing-in-sklearn 


进 阶 篇 : fus) 


3.1.4. 1 网 格 搜索 。 同 时 由 于 超 参 数 的 验证 过 程 之 间 彼 此 独立 ,因此 为 并 行 计算 提供 了 
可 能 ,3.1.4.2 并 行 搜索 一 节 将 向 读者 展示 如 何在 不 损失 搜索 精度 的 前 提 下 ,充分 利用 多 
核 处 理 器 成 倍 节约 计算 时 间 。 


3.1.4.1 网 格 搜 索 


由 于 超 参 数 的 空间 是 无 尽 的 ,因此 超 参数 的 组 合 配置 只 能 是 “更 优 ” 解 ,没有 最 优 解 。 
通常 情况 下 ,我们 依靠 网 格 搜索 2(GridSearch) 对 多 种 超 参 数组 合 的 空间 进行 暴力 搜索 。 
每 一 套 超 参 数组 合 被 代入 到 学 习 函 数 中 作为 新 的 模型 .并 且 为 了 比较 新 模型 之 间 的 性 能 ， 
每 个 模型 都 会 采用 交叉 验证 的 方法 在 多 组 相同 的 训练 和 开发 数据 集 下 进行 评估 。 以 代码 
66 为 例 。 


| es 使 用 单线 程 对 文本 分 类 的 朴素 贝 叶 斯 模型 的 超 参 数组 合 执行 网 格 搜索 


>>> JÁ skleam,datasets 中 导 人 20 类 新 闻 文 本 抓 取 器 。 
>>> from sklearn.datasets import fetch 20newsgroups 
>>># 导 人 mmpy, 并 且 重 命名 为 np。 

>>> import numpy as np 


>>>+ 使 用 新 闻 抓 取 器 从 互联 网 上 下 载 所 有 数据 ,并 且 存 储 在 变量 news 中 。 
>>> news= fetch 20newsgroups (subset= 'all') 


>>># 从 skleam.cross_validation A train test split 用 来 分 割 数据 。 
>>> from sklearn.cross validation import train test split 


>>># 对 前 3000 条 新 闻 文 本 进行 数据 分 割 ,258 文 本 用 于 未 来 测试 。 
>>>X train, X test, y train, y test=train test split (news.data[:3000], 
news.target[:3000], test_size=0.25, randam state- 33) 


>>>#+ 导 人 支持 向 量 机 (分 类 ) 模 型 。 

>>> fram sklearn.svm import SVC 

>>> # FA Tfidfvectorizer 文 本 抽取 器 。 

>>> fram skleam.feature_extraction.text import TfidfVectorizer 


O 拓展 小 贴 士 25: 虽然 作者 没有 查阅 这 一 名 称 的 来 历 ,但 是 这 的 确 是 一 种 非常 形象 的 措辞 。 如 果 人 工 处 理 所 有 可 能 的 超 参数 组 合 ， 
通常 的 办 法 便 是 根据 超 参数 的 维度 , 列 成 相应 的 网 格 。 对 于 每 个 格子 中 具体 的 超 参 数组 合 ,通过 交叉 验证 的 方式 进行 模型 性 能 的 评估 。 


最 后 通过 验证 性 能 的 比较 , 间 选 出 最 佳 的 超 参 数 数据 组 合 。 


3 Phham 机 器 学 习 及 实践 


>>># HA Pipeline, 
>>> from sklearn.pipeline import Pipeline 


>>># 使 用 Pipeline” 简化 系统 搭建 流程 ,将 文本 抽取 与 分 类 器 模型 串联 起 来 。 
>>> cli Pipeline([(*vect', TfidfVectorizer (stop words- 'english', analyzer= 
‘wond')), ('svc', SVC())]) 


>>># 这 里 需要 试验 的 2 个 超 参数 的 个 数 分 别 是 4.3，svc_gama 的 参数 共有 107-2, 10~~1... 。 这 
样 我 们 一 共有 12 种 的 超 参数 组 合 ,12 个 不 同 参数 下 的 模型 。 
»»»parameters- ['svc gamma': rp.logspace(-2, 1, 4), 'svc__C': rp.logspace(- 1, 1, 3)} 


>>> 从 skleam.grid search 中 导 人 网 格 搜索 模块 Gridsearchcv, 
>>> from sklearn.grid search import Gridsearchcv 


>>># 将 二 组 参数 组 合 以 及 初始 化 的 Pipline 包 括 3 折 交 叉 验 证 的 要 求全 部 告知 Gridsearchcv, iff 
大 家 务必 注意 retit- True 这 样 一 个 设 定 @。 
>>> gs= GridSearchcv(clf, parameters, verbose- 2, refit- True, c= 3) 


>>># 执 行 单线 程 网 格 搜索 。 
>>>% time -gs.fit(X train, y train) 
>>> gs.best params , gs.best_score_ 


>>>+ 输 出 最 佳 模型 在 测试 集 上 的 准确 性 。 
>>> print gs.score(X test, y test) 


Fitting 3 folds for each of 12 candidates, totalling 36 fits 


[CV] suc. gama= 0.01, SVC_O=0.1 .................... n 
I] ......... n e. SV  game-0.0], svc O-0.1- 5.38 
[CV] svc. gamg-0.01, suc O-0.1 ............................... m 


O 拓展 小 贴 士 26: 在 读者 已 经 全 面 了 解 如 何 使 用 Scikit-learn 从 零 搭 建 机 器 学 习 系统 之 后 ,推荐 大 家 使 用 Pipeline 来 简化 代码 ,具体 
的 使 用 方式 可 以 参考 http; / /scikit-learn. org/stable/modules/pipeline. html # pipeline-chaining-estimators 

© ”拓展 小 贴 士 27: 在 交叉 验证 获取 最 佳 的 超 参 数 过 程 中 ,如 果 设 定 refit 一 True, 那 么 程序 将 会 以 叉 验 训练 集 得 到 的 最 佳 超 参数 , 重 
新 对 所 有 可 用 的 训练 集 与 开发 集 进行 ,作为 最 终 用 于 性 能 评估 的 最 佳 模 型 的 参数 。 这 是 一 个 标准 的 流程 ,请 读者 参考 。 


[OV] ............................ SVG gamm-0.0l, svc O-0.1- 5.65 
[CV] svc_genme= 0.01, sve_O=0.1 
Im .. + Svc_game=0.01, svc O=0.1- 5.55 
[CV] svc. game-0.1, SVC_OC=0.1 ................. m 
svc_game=0.1, sve_O=0.1- 5.65 
[cV] svc. game-0.1, svc C-0.1. 
[cm -Svc game-0.1, svc O-0.1- 5.95 
[cV] svc. game-0.1, svc O-0.1 


[CV] sve_gamme= 10.0, Svc O-0.1 
[ov] sc gme 10.0, vc O-0.1- 5.0s 
[CV] svc_gamme= 10.0, svc O-0.1 
s... SVC gamm-10.0, Svc O-0.1- 5.38 
[cV] sve_gamme= 10.0, svc O-0.1.. 
ee SVC  gamee-10.0, suc O-0.1- — 5.4s 

[CV] svc_ganme= 0.01, svc. O-1.0 
ton .. ++ SvC_gamme= 0.01, svc O-1.0- 4.95 
[cV] svc_ganme= 0.01, sve_O=1.0 
[CV] ................. .. sees SVC_game=0.01, suc O-1.0-  5.0s 
[CV] sve_game=0.01, svc O-1.0 
Svc_game= 0.01, suc O-1.0- 


5.3s 
[OV] ............................. SVG  gamm-1.0, suc O-1.0- — 5.1s 
[CV] sve_gamme=1.0, SVC_O=1.0 .............. 


[CV] svc. gamg-1.0, svc C-1.0 ......................... nm 

[CV] ............................ .Svc game-1.0, vc O-1.0- 5.35 
[CV] suc gama-10.0, suc O-1.0 .......... — 
[OY] seeeessssss ^ SVc  gamae-10.0, svc O-1. 


IW] .................... ee. SVG. game-10.0, svc O-1. 
[CV] se game-10.0, suc O-1.0 ........................ 
Svc gammg-10.0, vc O-1. 
[CV] se gama= 0.01, svc O-10.0 ..................... 
[cm . ++ Svc_gamme= 0.01, svc O-10.! 
[CV] se game 0.01, svc 0-10.0 ....................... 
Io. ++ Svc_gamme= 0.01, svc O-10.! 
[CV] svc__qama= 0.01, svc 0-10.0 ......................... 
[CV] ........................... svc gme 0.01, svc O-10.0- 5.15 
[CV] svc. game-0.1, SVC O-10.0 .......................... 
Iv]... 


Kg] ......................... ++ SvC_gamme= 10.0, svc O-10.0- 5.5s 


[CV] svc__gamme= 10.0, SVC__O= 10.0 .............. m 
[CV] eere HH + Svc gamm-10.0, svc O-10. 


Wall time: 3min 23s 
0. 822666666667 
(Parallel (n_jcbs=1)]: Done 36 outof 36 | elapsed: 3.2min finished 


-| 


代码 66 的 输出 说 明 : 使 用 单线 程 的 网 格 搜索 技术 对 朴素 贝 叶 斯 模型 在 文本 分 类 任 


务 中 的 超 参 数组 合 进行 调 优 , 共 有 12 组 超 参数 X3 rse SU up = 36 项 独立 运行 的 计算 任 
务 。 该 过 程 一 共 进行 了 3 分 23 秒 , 寻 找到 的 最 佳 的 超 参 数组 合 在 测试 集 上 所 能 达成 的 最 
高 分 类 准确 性 为 82. 27% 。 


3.1.4.2 并 行 搜索 


尽管 采用 网 格 搜索 结合 交叉 验证 的 方法 ,来 寻找 更 好 超 参数 组 合 的 过 程 非常 耗 时 ; 然 
而 ,一 旦 获取 比较 好 的 超 参数 组 合 , 则 可 以 保持 一 段 时 间 使 用 。 因 此 这 是 值得 推荐 并 且 相 
对 一 劳 永 锡 的 性 能 提升 方法 。 更 可 喜 的 是 ,由 于 各 个 新 模型 在 执行 交叉 验证 的 过 程 中 间 
是 互相 独立 的 ,所 以 我 们 可 以 充分 利用 多 核 处 理 器 (Multicore processor) 甚 至 是 分 布 式 的 
计算 资源 来 从 事 并 行 搜索 (Parallel Grid Search) ,这 样 能 够 成 倍 地 节省 运算 时 间 。 让 我 
们 对 代码 66 中 超 参数 搜索 的 过 程 略 作 修改 , 蔡 换 为 代码 67 中 的 并 行 搜索 ,看 看 会 有 怎样 
的 效率 提升 。 


[ 代码 67: 使 用 多 个 线程 对 文本 分 类 的 朴素 贝 叶 斯 模型 的 超 参数 组 合 执行 并 行 化 
i 的 网 格 搜索 

>>># 从 skleam.datasets 中 导入 20 类 新 闻 文本 抓 取 器 。 

>>> from skleam.datasets import fetch 20newsgroups 

>>> # HA mmpy, 并 且 重 命名 为 np。 

>>> import numpy as np 


>>># 使 用 新 闻 抓 取 器 从 互联 网 上 下 载 所 有 数据 ,并 且 存 储 在 变量 news 中 。 
>>> news= fetch 20newsgroups (subset= 'all') 


>>># 从 skleam.cross validation 导 人 train test_split 用 来 分 割 数据 。 
>>> fron skleam.cross validation import train test split 


>>># 对 前 3000 条 新 闻 文 本 进行 数据 分 割 ,25% 文 本 用 于 未 来 测试 。 
>>>X train, X test, y train, y test- train test split (news.data[:3000], news.target[:3000], test_ 


size= 0.25, randm state- 33) 


>>># 导 和 支持 向 量 机 (分 类 ) 模 型 。 
>>> fran skleam.svm import SVC 


>>> # FA Tfidfvectorizer 文 本 抽取 器 。 


>>> fran skleam. feature extraction.text import TFidfvectorizer 
>>> # S À. Pipeline, 
>>> from skleam.pipeline import Pipeline 


>>> +EH Pipeline 简化 系统 搭建 流程 ,将 文本 抽取 与 分 类 器 模型 串联 起 来 。 
>>> c1f= Pipeline([('vect', TfidfVectorizer (stop words- 'english', analyzer= 
‘word')), ('svc', SVC())]) 


>>># 这 里 需要 试验 的 2 个 超 参数 的 个 数 分 别 是 4.3，svc_gamma 的 参数 共有 10~ 2, 10^ 
-1.… 。 这 样 我 们 一 共有 12 种 的 超 参数 组 合 ,12 个 不 同 参数 下 的 模型 。 
>>> parameters= ('svc ganma': rp.logspace(-2, 1, 4), "svc__C': np.logspace(-1, 1, 3)} 


>>> # JÁ skleam.grid search 中 导入 网 格 搜索 模块 Gridsearchcv。 
>>> from sklearn.grid search import Gridsearchcv 


>>># 初 始 化 配置 并 行 网 格 搜索 ,n_jcbs=-1 代 表 使 用 该 计算 机 全 部 的 ceU。 
>>> gs=GridSearchcv(clf, parameters, verbose=2, refit- True, cv=3, n_jcbs=- 1) 


>>># 执 行 多 线程 并 行 网 格 搜索 。 
>>> %time -gs.fit(X train, y train) 
»»»gs.best params , gs.best score - 


>>>+ 输 出 最 佳 模型 在 测试 集 上 的 准确 性 。 
>>>Print gs.score(X test, y test) 


Fitting 3 folds for each of 12 candidates, totalling 36 fits 
Wall time: 51.8 s 

0.822666666667 

(Parallel (n_jcbs=-1)]: Dne 36outof 36| elapsed: 42.7s finished 


同样 是 网 格 搜 索 , 使 用 多 线程 线 并 行 搜索 技术 对 朴素 贝 叶 斯 模型 在 文本 分 类 任务 
的 超 参数 组 合 进行 调 优 .执行 同样 的 36 项 计算 任务 一 共 只 花费 了 51.8 秒 ,寻找 到 的 最 住 


zi 


H 


的 超 参数 组 合 在 测试 集 上 所 能 达成 的 最 高 分 类 准确 性 依然 为 82. 27%。 我 们 发 现在 没有 


O 拓展 小 贴 士 28: 在 全 面 了 解 如 何 使 用 sklearn 从 零 搭 建 机 器 学 习 系 统 之 后 ,作者 推荐 大 家 使 用 Pipeline 来 简化 代码 ,具体 的 使 用 
方式 可 以 参考 http://scikit-learn. org/stable/modules/pipeline. html # pipeline-chaining-estimators. 


影响 验证 准确 性 的 前 提 下 ,通过 并 行 搜索 基础 有 效 地 利用 了 4 核心 (CPU) 的 计算 资源 , 几 
乎 4 倍 地 提升 了 运算 速度 ,节省 了 最 佳 超 参数 组 合 的 搜索 时 间 。 


Go: 流行 库 / 异 型 实践 


本 书 重点 介绍 的 Scikit-learn 几乎 赛 括 了 所 有 机 器 学 习 领 域 的 经 典 模型 。 掌 握 这 些 
模型 对 于 初学 者 来 讲 是 十 分 必要 的 。 然 而 ,许多 从 业者 却 更 加 热衷 于 那些 尽管 描述 复杂 
但 是 功能 强大 ,性 能 强劲 的 新 模型 ,教科 书 中 的 经 典 显 然 无 法 满足 他 们 的 胃口 。 机 器 学 习 
方法 之 所 以 能 够 在 短 短 十 几 年 间 成 为 计算 机 科学 领域 炙手可热 的 研究 话题 0, 并 且 广 泛 
应 用 于 现实 生活 中 的 方方面面 ,很 大 程度 上 受 惠 于 其 极 高 的 成 果 转 化 率 。 大 量 描 述 新 模 
型 的 论文 一 经 发 表 , 便 会 立刻 被 各 大 业界 公司 .科研 机 构 所 关注 。 一 旦 这 些 新 模型 被 证 明 
可 以 为 商业 系统 取得 更 高 的 性 能 、 获 得 更 多 的 熏 利 ,那么 就 会 有 编程 爱好 者 参与 进来 从 事 
开源 代码 的 开发 ,甚至 有 些 会 被 封装 为 工具 包 供给 更 多 的 人 使 用 。 

本 节 会 列举 几 个 比较 成 功 的 案例 : 用 于 自然 语言 (文本 ) 处 理 的 工具 包 NL TK ;量化 
词汇 语义 相似 度 的 词 向 量 (Word2Vec) 技 术 ; 比 许多 经 典 集成 模型 的 性 能 表现 更 加 强劲 
的 XGBoost; 甚 至 Google 最 新 发 布 的 深度 学 习 框架 Tensorflow。 我 们 将 介绍 这 些 时 下 
流行 的 编程 库 / 工 具 包 的 功能 ,指导 大 家 如 何 配置 和 使 用 他 们 ,并 且 给 出 对 应 的 Python 代 
码 样 例 。 

鉴于 本 节 中 所 介绍 的 大 多 数 编程 库 暂 时 不 支持 Windows 7 SP1 64 位 操作 系统 平台 ， 
因此 我 们 只 提供 在 Mac OS 上 的 配置 步骤 : 

(1) JEK Anaconda 官网 下 载 MAC OS Python 2. 7 64bit 的 版 本 ,并且 按 照 默认 配置 
点 选 安 装 。 如 果 安 装 成 功 ,在 Terminal 中 默认 的 Python 解释 器 环境 会 被 Anaconda 自 带 
的 环境 覆盖 ,重新 启用 Python 将 如 图 3-6 所 示 。 我 们 可 以 发 现 ,新 的 Python 解释 器 与 
图 3-6 中 Mac OS 自 带 的 Python 解释 器 环境 略 有 不 同 。 


[Jieleis-MBP:- jieleizhus python 

Python 2.7.11 |Anaconda 2.4.1 (x86 64)| (default, Dec 6 2015, 18:57:58) 
[GCC 4.2.1 (Apple Inc. build 5577)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
Anaconda is brought to you by Continuum Analytics. 

Please check out: http://continuum.io/thanks and https://anaconda.org 


图 3-6 成 功 安装 Anaconda 后 的 Mac OS Python 2.7. x 解释 器 样 例 


(D http://www. computerworld. com/article/2542247 /it-careers/12-it-skills-that-employers-can-t-say-no-to, html. 


(2) 接着 请 读者 在 Terminal 下 运行 代码 68 中 的 bash 命令 ,依次 安装 所 需 工 具 包 


pip .sklearn .matplotlib pandas .nltk ,gensim, xgboost ,tensorflow,skflow, 


| 代码 68: 安装 本 书 所 有 Python 编程 库 的 Mac OS Bash 脚本 


S # 使 用 bash 自 带 的 easy install 安装 pip, 用 于 后 续 工 具 包 的 简易 安装 。 
$ sub easy install pip 

S + 确保 pip 升 级 为 最 新 版 本 。 

$ sub pip install — wpgrade pip 

# 重 新 向 读者 确认 安装 基本 工具 库 , 如 果 已 经 安装 ,程序 将 会 有 提示 。 
sudo pip install -U numpy 

sucb pip install -U scipy 

sudo pip install -U skleam 

sudo pip install - U matplotlib 

sudo pip install - U pandas 


40 40 4» 4» nn 


S +# 安 装 NEIK 所 需 的 必要 工具 包 。 
$ sudo easy install -U Beautifulsoup4 
$ sud pip install -Unltk 


S + 安装 wbrdzvec 技 术 相关 的 工具 包 ensim 
$ sui pip install -Unis 


S # 安 装 XEBoost 技 术 相关 的 Python 工具 包 xost, 
$ sudb pip install -U xgooost 


S + 安装 Tensorflow 以 及 更 加 适合 scikit- leam 接 口 的 skelow, 

$ sudo easy install -U six 

$ sud pip install — upgradehttps: //storage.qoogleapis.cam/tensorfllow/mac/ 
tensorflow- 0.5.0- py2- none- any -whl 

$ pip install git+ git: //github.om/tensorf low/sktlow.git 


S 4# 重 新 运行 python 解 释 器 环境 。 
S pythm | 
(3) 继续 在 Python 中 使 用 如 下 命令 导入 所 有 的 工具 包 , 检 验 是 否 安装 成 功 。 


>>> import rumpy, scipy, sklearn, pandas, matplotlib, gensim, nltk, xgboost, tensorflow, skflow 


(4) 接着 在 Anaconda 的 Launch 里 选择 IPython NoteBook 在 那里 面 新 建 一 个 
Python 源 代 码 文件 ,再 输入 一 次 上 述 代 码 ,检验 安装 。 

(5) 如 果 在 检验 过 程 中 出 现 工具 包 加 载 错误 ,请 读者 复制 粘贴 对 应 错误 代码 到 搜索 
引擎 中 寻找 解决 方案 ?。 笔 者 在 配置 中 也 难免 会 遇 到 一 些小 问题 ,使 用 搜索 引擎 寻找 解 
决 方案 是 作为 一 名 程序 员 必 备 的 良好 素质 。 


3.2.1 自然 语言 处 理 包 (NLTK) 


早期 的 自然 语言 处 理 (Natural Language Processing) 是 语言 学 (Linguistics) 的 一 门 
分 支 科 目 ,侧重 于 对 人 类 语言 的 词法 (单词 的 形成 和 组 成 )、 句 法 (单词 如 何 组 成 短语 或 者 
句子 的 规则 ) 等 的 研究 。 但 是 随 着 计算 机 和 互联 网 的 兴起 ,科学 家 将 目光 投向 了 更 有 前 景 
的 领域 : 计算 语言 学 (Computational Linguistics) , 即 期 望 借助 计算 机 强大 的 运算 能 力 和 
海量 的 互联 网 文本 ,来 提高 自然 语言 处 理 能 力 。NLP 因此 也 不 再 局 限 在 语言 学 的 角度 ， 
而 是 扩展 到 人 工 智 能 (Artifical Intelligence) 的 研究 领域 。 这 项 研究 开始 探讨 如 何 让 计算 
机 处 理 , 生 成 甚至 理解 人 类 的 自然 语言 ,并 且 许 多 传统 语言 学 的 任务 也 逐渐 开始 被 计算 机 
运算 所 替代 。 

这 一 节 所 介绍 的 NLTK(Natural Language ToolKit) ,是 时 下 非常 流行 的 在 Python 
解释 器 环境 中 用 于 自然 语言 处 理 的 工具 包 。 对 于 NLTK 的 使 用 者 而 言 , 它 就 像 是 一 名 极 
其 高 效 的 语言 学 家 ,为 您 快速 完成 对 自然 语言 文本 的 深层 处 理 和 分 析 。 

如 果 没 有 自然 语言 处 理 技术 ,对 于 如 下 的 两 行 英文 句子 ,除了 使 用 我 们 在 3. 1. 1. 1 特 
征 抽 取 一 节 学 习 到 的 词 袋 法 (Bag of Words) 之 外 .似乎 没有 更 多 的 处 理 和 分 析 手段 ,如 代 
码 69 所 示 。 

The cat is walking in the bedroom. 


A dog was running across the kitchen. 


| 代码 69: 使 用 词 袋 法 (Bag-of-Words) 对 示例 文本 进行 特征 向 量化 


>>># 将 上 述 两 个 句子 以 字符 串 的 数据 类 型 分 别 存储 在 变量 sentl 与 sent2 中 
>>> sentl= "The cat is walking in the bedroam.' 
>>> sent2- 'A dog was running across the kitchen." 


D 拓展 小 贴 士 29: 作者 在 此 处 列 出 几 种 常见 问题 的 解决 方案 http: / /stackoverflow. com/questions/33900256/error-unknown-locale- 


utf-8-on-pandas-import-mac-os-x-when-running-fish-sh 


>>> 从 skleam. feature extraction.text rh f À. CountVectorizer 
>>> from sklearn.feature extraction.text import CountVectorizer 
>>> count_vec= CountVectorizer () 


>>> sentences- [sentl, sent2] 


>>># 输 出 特征 向 量化 后 的 表示 。 

>>> print count_vec.fit_transfomn (sentences) .toarray() 
[01101100210] 

10010011101] 


>>># 输 出 向 量 各 个 维度 的 特征 含义 。 

>>> print count vec.get feature names 0 

[u'across', u'bedroan', u'cat', u'dog', u'in', u'is', u'kitchen', u'ruming', 

u'the', u'walking', u'was'] _| 


而 我 们 下 面 所 要 演示 的 范例 代码 70 则 使 用 NLTK 对 这 两 句 里 面 所 有 词汇 的 形成 与 


性 质 类 属 乃 至 词汇 如 何 组 成 短语 或 者 句子 的 规则 ,做 了 更 加 细致 地 分 析 。 


E 70. 使 用 NLTK 对 示例 文本 进行 语言 学 分 析 


2224 À ntk 
>>> import nltk 


>>># 对 句子 进行 词汇 分 割 和 正规 化 ,有 些 情况 如 aren't 632 SP ALY are Al n't; 或 者 Im3E AH BET 
IÜm 
>>> tokens l-nltk.word tokenize (sent1) 
>>> print tokens 1 
["Ibe', 'cat', 'is', ‘walking’, 'in', 'the', 'bedroan', '.'] 


>>> tokens 2-nltk.word tokenize (sent2) 
>>> print tokens 2 


['A', 'dog', 'was', "running, 'across', 'the', 'kitchen', '.'] 


>>># 整 理 两 句 的 词 表 ,并 且 按照 ascTTr 的 排序 输出 - 
>>> vocab 1= sorted (set (tokens_1)) 
>>> print vocab 1 
('.", "the", bedroom", "cat, 'in', 'is', 'the', 'walking'] 


>>> vocab 2- sorted (set (tokens 2)) 
»»»print vocab 2 
['.*, 'A', 'across', 'dog', 'kitchen', ‘running’, 'the', 'was'] 


>>># 初 始 化 stemer 寻 找 各 个 词汇 最 原始 的 词根 。 

>>> stamer= nltk.stem.PorterStenmer () 

>>> stem 1= [stemmer.stem(t) for t in tokens 1] 

>>> print stem 1 

[u"Tte', u'cat', u'is', u'walk', u'in', u'the', u'bedroan’, u'.'] 


>>> stem_2= [stemmer.stem(t) for t in tokens 2] 
>>> print stem 2 
[u'A', u'dog', u'wa', u'run', u'across', u'the', u'kitchen', u'.'] 


>>># 初 始 化 词性 标注 器 ,对 每 个 词汇 进行 标注 。 

>>>pos tag l-nitk.tag.pos tag(tokens 1) 

>>> print pos tag 1 

[("Ihe', 'DT'), ('cat', 'NN'), ('is', VEZ'), ('walking', 'VBG'), ('in', "IN'), ('the', 'DT'), ("bedrom 
"INN, (en 10] 


»»»pos tag 2-nltk.tag.pos tag(tckens 2) 
>>> print pos tag 2 

[('A', 'DD'), ('dog', "NN'), ('was', 'VED'), ('running', 'VEG'), ('across', 'IN'), ('the', 'DI'), (' 
Kitchen’, "NN'), ('.', '.")] 


3.2.2 词 向 量 (Word2Vec) 技 术 


我 们 在 “3. 1. 1. 1 特征 抽取 ”? 节 详细 介绍 了 如 何 通过 词 袋 法 (Bag of Words), 即 以 每 
个 词汇 为 特征 ,向 量化 表示 一 个 文本 :并且 提供 了 几 种 特征 量化 的 技术 , 如 
CountVectorizer 和 TfidfVectorizer。 词 袋 法 (Bag of Words) 可 以 视 作 对 文本 向 量化 的 表 
示 技 术 , 通 过 这 项 技术 可 以 对 文本 之 间 在 内 容 的 相似 性 进行 一 定 程 度 的 度量 。 但 是 对 于 


的 两 段 文本 , 词 袋 法 (Bag of Words) 技 术 似 乎 对 计算 他 们 的 相似 度 表 现 得 无 能 为 力 。 
The cat is walking in the bedroom. 
A dog was running across the kitchen. 

尽管 从 语义 上 讲 , 这 两 段 文本 所 描述 的 场景 极为 相似 ;但 是 ,从 词 袋 法 表示 来 看 ,这 两 
段 文本 唯一 相同 的 词汇 是 the, 找 不 到 任何 语义 层面 的 联系 。 

而 在 “3. 2.1 自然 语言 处 理 包 (CNLTK)” 节 中 ,我 们 进一步 学 习 到 如 何 借助 更 加 复杂 
的 自然 语言 处 理 技术 对 文本 进行 分 析 。 这 使 得 我 们 不 仅 能 够 对 词汇 的 具体 词性 进行 标 
注 , 甚 至 可 以 对 句子 进行 解构 。 然 而 ,即便 我 们 能 够 使 用 NLTK 中 的 词性 标注 技术 对 上 
述 两 段 文本 进行 分 析 , 找 出 对 应 词汇 在 词性 方面 的 相似 性 ,也 无 法 针对 具体 词汇 之 间 的 含 
义 是 否 相似 进行 度量 。 

因此 ,为 了 寻找 词汇 之 间 的 相似 度 关系 ,我 们 试图 也 将 词汇 的 表示 向 量化 。 这 样 就 可 
以 通过 计算 表示 词汇 的 向 量 之 间 的 相似 度 ,来 度量 词汇 之 间 的 含义 是 否 相似 。 而 为 了 学 
习 到 这 样 的 词 向 量 表示 ,Yoshua 教授 等 人 (参考 文献 [13]) 以 及 Google 研究 员 Mikolov 
等 人 (参考 文献 [14]) 分 别 从 神经 网 络 模型 的 角度 提出 了 自己 的 框架 。 

鉴于 本 书 受 众 的 机 器 学 习 理 论 背景 不 一 ,作者 在 这 里 只 是 借 由 Yoshua 教授 的 论 
文 [13] 中 所 绘 的 图 3-7 形象 地 解释 其 学 习 过 程 , 并 且 在 解释 的 过 程 中 会 涉及 一 些 与 配置 
相关 的 超 参数 ,请 读者 留意 : 首先 ,我 们 要 明确 ,句子 中 的 连续 词汇 片段 ,也 被 称 作 上 下 文 
(Context) 。 词 汇 之 间 的 联系 就 是 通过 无 数 这 样 的 上 下 文 建立 的 。 以 这 样 一 句 英 文 为 例 ， 
The cat is walking in the bedroom. 如 果 我 们 需要 这 句 话 中 所 有 上 下 文 数量 为 4 的 连续 
词汇 片段 ,那么 就 有 The cat is walking „cat is walking in\is walking in the 以 及 
walking in the bedroom 。 从 语言 模型 (Language Model) 的 角度 来 讲 , 每 个 连续 词汇 片段 
的 最 后 一 个 单词 究竟 有 可 能 是 什么 ,都 是 受到 前 面 3 个 词汇 的 制约 。 因 此 ,这 就 形成 了 一 
个 根据 前 面 3 个 单词 ,预测 最 后 一 个 单词 的 监督 学 习 系统 。 如 果 我 们 使 用 神经 网 络 框架 
来 描述 , 便 是 图 3-7 所 代表 的 一 个 监督 学 习 的 神经 网 络 模型 。 当 上 下 文 数量 为 n 的 时 候 ， 
提供 给 这 个 网 络 的 输入 (Input) 都 是 前 ”一 1 个 连续 的 词汇 片段 wna wa 指向 的 目 
标 输出 (Output) 就 是 最 后 一 个 单词 w 。 而 在 网 络 中 ,用 于 计算 的 都 是 这 些 词汇 的 向 量 表 
RAM Cwm). 每 一 个 红色 实心 圆 都 代表 词 向 量 中 的 元 素 。 每 个 词汇 红色 实心 圆 的 个 数 
代表 了 词 向 量 的 维度 (Dimension) .并且 所 有 词汇 的 维度 都 是 一 致 的 。 神 经 网 络 的 训练 也 
是 一 个 通过 不 断 迭 代 ,更 新 参数 循环 往复 的 过 程 9 ,而 我 们 从 图 3-7 这 个 网 络 最 终 获 得 的 
就 是 每 个 词汇 独特 的 向 量 表示 。 


O 拓展 小 贴 士 30: 神经 网 络 是 一 个 复杂 的 话题 ,笔者 不 打算 在 本 书 过 多 谈论 。 关 于 神经 网 络 的 基础 知识 讲解 ,我 们 会 集中 安排 在 
3. 2. 4 TensorFlow 框架 一 节 。 


C(w;-n*1y C(w-2) Cwm) 


shared parameters 
across words 


index for w, „s index for w, > index for w, , 


图 3-7 一 个 基于 神经 网 络 的 语言 模型 ,图 片 来 源 于 参考 文献 [13] 


本 节 , 我 们 将 使 用 gensim 工具 包 , 利 用 代码 71 对 之 前 在 本 书 中 多 次 用 到 的 20 类 新 
闻 文本 (20newsgroups) 进 行 词 向 量 训练 ;并 且 通 过 抽样 几 个 词汇 ,查验 Word2Vec 技术 
是 否 可 以 在 不 借助 任何 语言 学 知识 的 前 提 下 ,寻找 到 相似 的 其 他 词汇 。 


| 代码 71: 用 20 类 新 闻 文 本 (20newsgroups) 进 行 词 向 量 训练 


>>># 从 skleam.datasets FA 20 类 新 闻 文本 抓 取 器 。 
>>> fram skleam.datasets import fetch 20newsgroups 
>>># 通 过 互联 网 即时 下 载 数据 。 

>>> news= fetch 20newsgroups (subset= 'all') 

>>>X, y-news.data, news.target 


>>> + 从 bs4 导入 Beautifulsoup, 
>>> fram bs4 import Beautifulsoup 
>>> 4 8A, nltk 和 re 工具 包 。 
>>> import nltk, re 


>>># 定 义 一 个 函数 名 为 news to _sentences 讲 每 条 新 闻 中 的 句子 逐一 剥离 出 来 ,并 返回 一 个 句子 
的 列表 。 

>>> def news to sentences (news) : 

>>> — news _text=Beautifulsoup (news) .get text () 

>>> tokenizer =nltk.data. load ('tokenizers/punkt./english.pickle") 

>>> Taw_sentences= tokenizer. tokeniize (news text) 

>>> — sentences= [] 

>>> for sent in raw sentences: 

» sentences.agpend (re sub (' [^a- zA- Z] ' , ' ', sent.lower() .strip()) split 0) 

>>> return sentences 


>>> sentences- [] 


>>># 将 长 篇 新 闻 文 本 中 的 句子 剥离 出 来 ,用 于 训练 。 
>>> for x in X: 
>>> sentences + =news_to_sentences (x) 


>>> JA gensim.models Hi Së À. word2vec, 
>>> fram gensim.models import word2vec 


>>># 配 置 词 向 量 的 维度 。 

>>> nim features- 300 

>>># 保 证 被 考虑 的 词汇 的 频 度 。 

>>>min word count= 20 

>>># 设 定 并 行 化 训练 使 用 CPU 计算 核心 的 数量 ,多 核 可 用 。 
>>> mum_workers= 2 

>>># 定 义 训练 词 向 量 的 上 下 文 窗口 大 小 。 

>>> ontext=5 

>>> downsampLing= le- 3 


>>> 从 gensim.mdels $À word2vec. 
>>> fran gensimamdels import word2vec 


>>># 训 练 词 向 量 模型 。 

>>> model= word2vec.Word2Vec (sentences, workers=num_workers, V 
Size-num features, min count-min word count, V 
window- context, sample- downsampling) 


>>># 这 个 设 定 代表 当前 训练 好 的 词 向 量 为 最 终 版 ,也 可 以 加 快 模型 的 训练 速度 。 
»»»model.init sims (replace True) 


>>># 利 用 训练 好 的 模型 ,寻找 训练 文本 中 与 moming 最 相关 的 10 个 词汇 。 

>>>mpdel most_similar (‘moming') 
[(u'aftemoon', 0.7533695697784424) , 
(u'weekend! , 0.6581624746322632), 
(u'evening!, 0.6570416688919067) , 
(u'saturday', 0.63960862159729), 
(u'yesterday!, 0.6292878985404968) , 
(u'friday', 0.6119368076324463) , 
(u'sunday', 0.6075364351272583) , 
(u'tuesday', 0.6071774959564209) , 
(u'monday', 0.6050551533699036) , 
(u'thursday', 0.5909229516983032) ] 


>>># 利 用 训练 好 的 模型 ,寻找 训练 文本 中 与 email 最 相关 的 10 个 词汇 。 
»»»mpdel.most similar('email') 

[(u'mail', 0.6806867718696594) , 

(u'replies', 0.6374378204345703) , 

(u'pespond' , 0,5839084386825562) , 

(u'contact', 0.5823279619216919) , 

(u'send', 0.5804370641708374) , 

(u'address', 0.5789896249771118) , 

(u'snail', 0.5748004913330078) , 

(u'requests' , 0.5558102130889893) , 

(u'addresses', 0.5551006197929382) , 

(u'postal', 0.5530245304107666) ] E 


通过 观察 代码 71 的 两 组 输出 ,我们 不 难 发 现 ,在 不 使 用 语言 学 词典 的 前 提 下 , 词 向 量 
技术 仍然 可 以 借助 上 下 文 信息 找到 词汇 之 间 的 相似 性 。 这 一 技术 不 仅 节省 了 大 量 专业 人 
上 的 作业 时 间 , 而 且 也 可 以 作为 一 个 基础 模型 应 用 到 更 加 复杂 的 自然 语言 处 理 任务 中 。 

最 后 ,笔者 需要 向 读者 们 指出 的 是 , 词 向 量 的 训练 结果 很 大 程度 上 受 所 提供 的 文本 影 
响 。 换 言 之 ,这 些 词 向 量 绝 不 是 固定 的 ;您 也 可 以 灵活 运用 这 个 模型 ,训练 不 同文 本 内 部 
独 有 的 词 向 量 。 


3.2.3 XGBoost 模型 


提升 (Boosting) 分 类 器 隶属 于 集成 学 习 模 型 。 它 的 基本 思想 是 把 成 百 上 千 个 分 类 准 
确 率 较 低 的 树 模型 组 合 起 来 ,成 为 一 个 准确 率 很 高 的 模型 。 这 个 模型 的 特点 在 于 不 断 迭 
代 , 每 次 迭代 就 生成 一 颗 新 的 树 。 对 于 如 何在 每 一 步 生成 合理 的 树 ,大 家 提出 了 很 多 的 方 
法 ,比如 我 们 在 集成 (分 类 ) 模 型 中 提 到 的 梯度 提升 树 (Gradient Tree Boosting)。 它 在 生 
成 每 一 棵 树 的 时 候 采 用 梯度 下 降 的 思想 ,以 之 前 生成 的 所 有 决策 树 为 基础 ,向 着 最 小 化 给 
定 目标 函数 的 方向 再 进一步 。 

在 合理 的 参数 设置 下 ,我 们 往往 要 生成 一 定数 量 的 树 才 能 达到 令 人 满意 的 准确 率 。 
在 数据 集 较 大 较 复 杂 的 时 候 , 模 型 可 能 需要 几 千 次 迭代 运算 。 但 是 ,XGBoost 工具 更 好 
地 解决 这 个 问题 。XGBoost 的 全 称 是 eXtreme Gradient Boosting。 正 如 其 名 , 它 是 
Gradient Boosting Machine 的 一 个 C++ 实现 ,作者 是 目前 在 华盛顿 大 学 研究 机 器 学 习 的 
陈 天 奇 博士 。 他 在 研究 中 深 感 自己 受制 于 现 有 库 的 计算 速度 和 精度 ,因此 在 2014 年 9 月 
开始 着 手 搭建 XGBoost 项 目 , 并 在 2015 年 夏天 逐渐 成 形 。XGBoost 最 大 的 特点 在 于 能 
够 自动 利用 CPU 的 多 线程 进行 并 行 ;同时 按照 陈 天 奇 等 人 论文 [12] 中 的 说 法 ,他 们 也 在 
算法 上 加 以 改进 提高 了 精度 。 

本 节 , 我 们 将 在 代码 72 中 使 用 XGBoost 模型 ,根据 泰坦 尼克 号 的 乘客 数据 上 进行 生 
还 者 预测 ;同时 也 与 其 他 我 们 在 书 中 提 到 的 集成 分 类 模型 进行 性 能 比较 。 


[ «9 72: 对 比 随 机 决策 森林 以 及 XGBoost 模型 对 泰坦 尼克 号 上 的 乘客 是 否 生 还 
的 预测 能 力 


>>># 导 人 pandas 用 于 数据 分 析 。 
>>> import pandas as pd 


>>># 通 过 EL 地 址 来 下 载 Titanic 数 据 。 
>>> titanic=pd.read csv ('http://biostat .mc. vanderbilt .edu/wiki /pub/Main/DataSets /titanic.txt") 


>>># 选 取 pclass、age 以 及 sex 作 为 训练 特征 。 
»»»X-titanic[['pclass', 'age', 'sex']] 
>>> y= titanic['survived!] 


>>># 对 缺失 的 age 信息 ,采用 平均 值 方法 进行 补 全 , 即 以 age 列 已 知 数据 的 平均 数 填充 。 
>>>X['age"] .fillna (X['age'] mean(), inplace- True) 


>>>+# 对 原 数据 进行 分 割 ,随机 采样 25% 作 为 测试 集 。 
>>> fran skleam.cross validation import train test split 
>>>X train, X test, y train, y test-train test split (%, y, test size-0.25, randan state= 33) 


>>> JÁ sklearn.feature extraction A DictVectorizer. 
>>> from sklearn.feature extraction import DictVectorizer 
>>> vec- DictVectorizer (sparse- False) 


>>>+ 对 原 数据 进行 特征 向 量化 处 理 。 
>>>X train-vec.fit transform(X train.to dict (orient= 'record')) 
>>>X test-vec.transform(X test.to dict (orient- 'record')) 


>>># 采 用 默认 配置 的 随机 森林 分 类 器 对 测试 集 进行 预测 。 

>>> frm sklearn.ensenble import RandmForestClassifier 

>>> rfc- RandamWorestClassifier () 

>>> rfc. fit X train, y train) 

>>> print. “The accuracy of Ranckm Forest Classifier on testing set:', rfc.score(X test, y test) 


‘The accuracy of Random Forest Classifier on testing set: 0.775075987842 


>>># 采 用 默认 配置 的 xEBocst 模 型 对 相同 的 测试 集 进行 预测 。 

>>> fram xgboost import XÆClassifier 

>>> xgbc- X3&Classi fier () 

>>> xgpc. fit X train, y train) 
XESBClassifier base score=0.5, colsample_bylevel=1, colsample bytree- 1, 
game=0, learning rate-0.1, mex delta step-0, max_depth= 3, 
min child weight=1, missing-Ncne, n estimators- 100, nthread=- 1, 
dojective- 'binary:logistic', reg alpha- 0, req lanbda= 1, 
scale pos weight- 1, seed- 0, silent- True, subsample- 1) 


>>> print "The accuracy of eXtreme Gradient Boosting Classifier cn testing set:', xgbc.score(X test, y 
test) 


Pyho 机 器 学 习 及 实践 


‘The accuracy of extreme Gradient Boosting Classifier cn testing set: 0.787234042553 


通过 对 上 述 输出 的 观察 ,我 们 可 以 发 现 ,XGBoost 分 类 模型 的 确 可 以 发 挥 更 好 的 预 
测 能 力 。 而 事实 上 ,不 仅仅 只 是 Titanic 这 一 个 数据 分 析 任 务 ,XGBoost 之 所 以 如 此 负 有 
盛名 ,更 是 因为 该 模型 在 多 项 数据 分 析 竞 赛 中 帮助 选手 取得 名 次 。 对 于 具体 如 何在 实战 
中 使 用 XGBoost, 这 些 参 赛 选手 也 道 出 了 他 们 的 经 验 , 感 兴趣 的 读者 可 以 参考 如 下 链接 ， 

http://blog. kaggle. com/2015/11/30/flavour-of-physics-technical-write-up-lst- 
place-go-polar-bears/ 

http: //blog. kaggle. com/2015/09/22/caterpillar-winners-interview-lst-place- 
gilberto-josef-leustagos-mario/ 

http: //blog. kaggle. com/2015/10/21/recruit-coupon-purchase-winners-interview- 


2nd-place-halla-yang/ 


3.2.4 Tensorflow 框架 


2015 年 10 H 5 日 ,谷歌 为 TensorFlow 提交 了 注册 商标 申请 (登记 编号 86778464) , 
并 这 样 描述 它 : (1) 用 以 编写 程序 的 计算 机 软件 ;(2) 计算 机 软件 开发 工具 ;(3) 可 应 用 于 
人 工 智 能 ,深度 学 习 ,高 性 能 计算 .分布 式 计算 .虚拟 化 和 机 器 学 习 这 些 领域 ;4) 软件 库 可 
应 用 于 通用 目的 的 计算 .数据 收集 的 操作 数据 变换 .输入 输出 .通信 、 图 像 显 示人 工 智 能 
等 领域 的 建 模 和 测试 ;(5) 软件 可 用 作 应 用 于 人 工 智能 等 领域 的 应 用 程序 接口 (APD 。 

2015 年 11 月 9 日 ,Google 宣布 对 Tensorflow 开源 。 一 时 间 ,Tensorflow 在 GitHub 
上 面 的 下 载 量 跃升 至 全 站 第 2 位 ,可 见 全 世界 兴趣 爱好 者 对 这 款 开源 软件 的 热情 。 作 者 
曾 在 前 言 中 说 过 , 现 如 今 许多 知名 的 IT 企业 ,如 Google, Facebook, Microsoft, Apple 其 
至 国内 的 百度 ,无 不 在 机 器 学 习 研 究 领 域 给 予 非常 大 的 资金 和 人 力 的 投入 :但 是 , 鲜 有 将 
内 部 使 用 的 平台 公之于众 的 。 当 然 , 作 者 虽然 不 认为 Google 这 次 的 做 法 完全 是 一 次 “ 慈 
善 捐助 ,但 是 不 管 怎样 这 样 的 举措 的 确 令 人 拍手 叫好 。 

许多 人 开始 以 为 Tensorflow 只 是 一 个 用 于 深入 学 习 研 究 的 系统 ,其 实 不然 。 应 该 


O 拓展 小 贴 士 31: Google 在 其 将 近 20 年 的 发 展 历程 中 ,不 乏 这 种 “战略 性 ”的 论文 发 表 甚至 代码 开源 ,从 而 对 整个 IT 领域 产生 革命 
性 影响 的 例子 。 其 中 包括 : 发 表 MapReduce 这 种 分 布 式 存储 和 计算 框架 的 介绍 论文 (参考 文献 [15]) ,从 而 产生 了 Hadoop, Spark 等 ;开源 
Android 手机 操作 系统 , 几 年 之 间 雄 霸 移 动 端 操作 系统 市 场 ,与 人 苹果 公司 的 iOS 一 较 高 下 。 不 知道 这 次 公开 Tensorflow 这 个 曾 在 Google 
内 部 作为 机 器 学 习 的 系统 框架 ,是 否 也 意味 着 Google 正在 为 今后 的 人 工 智能 革命 进行 战略 布局 。 换 言 之 ,如 果 有 更 多 的 数据 科学 家 开始 
使 用 Tensorflow 来 从 事 机 器 学 习 方 面 的 研究 ,那么 作者 骨 昧 揣测 ,这 将 有 利于 Google 对 日 益 发 展 的 机 器 学 习 行 业 拥 有 更 多 的 主导 权 。 


说 ,这 是 一 个 完整 的 编码 框架 。 就 如 同 我 们 按照 Python 编程 语法 设计 程序 一 样 ， 
Tensorflow 内 部 也 有 自己 所 定义 的 常量 ,变量 ,数据 操作 等 要 素 。 不 同 的 是 , Tensorflow 
使 用 图 (Graph) 来 表示 计算 任务 ;并 使 用 会 话 (Session) 来 执行 图 。 如 代码 73 所 示 ,我们 
以 使 用 显 式 会 话 输出 一 句 话 作为 例子 。 


[ 代码 73: 使 用 Tensorflow 输出 一 句 话 


>>># 导 和 tensorflow 工 具 包 并 重 命名 为 tf. 
>>> import tensorflow as tf 

>>> # FA mmpy 并 重 命名 为 ro, 

>>> import numpy as np 


>>># 初 始 化 一 个 Tensorflow 的 常量 : Hello Google Tensorflow! 字符 串 ,并 命名 为 greeting 作 为 一 个 
计算 模块 。 
>>> greeting- tf.constant("Hello Google Tensorflow! ') 


>>># 启 动 一 个 会 话 。 

>>> sess= tf .Session() 

>>># 使 用 会 话 执行 greeting 计 算 模块 。 

>>> result= sess.run (greeting) 

>>># 输 出 会 话 执行 的 结果 。 

>>>print result 

>>># 关 闭会 话 。 这 是 一 种 显 式 关闭 会 话 的 方式 。 
>>> sess.close() 


Hello Google Tensorflow! J 


可 以 说 ,代码 73 是 许多 介绍 编程 的 书籍 开篇 的 老 套路 。 不 过 代码 74 会 告诉 大 家 ， 
Tensorflow 是 如 何 像 搭 积木 一 样 将 各 个 不 同 的 计算 模块 拼接 成 流程 图 ,完成 一 次 线性 函 
数 的 计算 ,并 在 一 个 隐 式 会 话 中 执行 的 。 


[ 代码 74. 使 用 Tensorflow 完成 一 次 线性 函数 的 计算 


>>># 声 明 matrix 为 Tensorflow 的 一 个 1* 2 的 行 向 量 。 
>>>matrixl=tf.constant([[3.，3.]]) 

>>># 声 明 matrix? 为 Tensorflow 的 一 个 2* 1 的 列 向 量 。 
>>> matrix®= tf.constant ([[2.], [2.]]) 


Pyho 机 器 学 习 及 实践 


>>> # Product 将 上 述 两 个 算 子 相 乘 ,作为 新 算 例 。 
>>> product= tf matml tratrixl, matrix2) 


>>># 继 续 将 product 与 一 个 标量 2.0 求 和 拼接 ,作为 最 终 的 linear 算 例 。 
>>> linear- tf acti (product, tf.constant (2.0)) 


>>># 直 接 在 会 话 中 执行 linear 算 例 , 相 当 于 将 上 面 所 有 的 单独 算 例 拼接 成 流程 图 来 执行 。 
>>>with tf.Session() as sess: 
>>> result- sess.run (Linear) 


>>> print result 
(0 14.1] J 


尽管 代码 73 和 代码 74 可 以 说 明 Tensorflow 是 一 个 编程 框架 ,但 是 截至 目前 还 没有 
显示 出 其 机 器 学 习 的 能 力 。 那 么 接 下 来 的 代码 75 将 要 向 各 位 读者 展示 如 何 利 用 
Tensorflow 自行 搭建 一 个 线性 分 类 器 ,重新 对 1. 1 机 器 学 习 综 述 一 节 的 “ 良 /恶性 乳腺 癌 
肿瘤 ”从 事 预 测 。 与 直接 使 用 Scikit-learn 中 已 经 编写 好 的 LogiticRegression 模型 不 同 ， 
Tensorflow 允许 使 用 者 自由 选取 不 同 操作 ,并 组 织 一 个 学 习 系 统 。 这 里 我 们 对 所 要 使 用 
的 线性 分 类 器 做 一 个 简化 : 取 0. 5( 良 性 肿瘤 为 0, 恶性 肿瘤 为 1) 为 界 , 并 采用 最 小 二 乘法 
拟 合 模型 参数 。 


[#058 75: 使 用 Tensorfiow 自 定义 一 个 线性 分 类 器 用 于 对 " 良 /恶性 乳腺 癌 肿 净 ” 
进行 预测 

>>># 导 人 tensorflow. 

>>> import tensorflow as tf 

>>> S À mmpy。 

>>> import numpy as np 

22» S A pandas, 

>>> import pandas as pd 


>>># 从 本 地 使 用 pandas i HPL I ë hh 88 089 A SCR o 
>>> train- pd.read csv('. ./Datasets/Breast- Cancer/breast- cancer- train.csv') 
>>> test- pd.read csv('. ./Datasets/Breast- Cancer /breast- cancer- test.csv") 


>>># 分 隔 特征 与 分 类 目标 。 
>>>X_train=np.float22(train[['Clump Thickness", ‘Cell Size']].T) 


>>> y_train= mp. float (train['Type"] -T) 
>>> X_test= np. float32 (test [["Clump Thickness', 'Cell Size']] .T) 
>>> y test- np. float32 (test ["Type"] .T) 


>>># 定 义 一 个 tensorflow 的 变量 b 作 为 线性 模型 的 截 距 , 同 时 设置 初始 值 为 1.0。 

>>> be tf.Variable (tf.zeros ([1])) 

>>># 定 义 一 个 tensorflow 的 变量 W 作 为 线性 模型 的 系数 ,并 设置 初始 值 为 -1.0 至 1.0 之 间 均 匀 分 
布 的 随机 数 。 

22» W-tf.Variable(tf.randm uniform([1, 2], - 1.0, 1.0)) 


>>># 显 式 定义 这 个 线性 函数 。 
>>> y-tf.matmil(w, X train) +b 


>>># 使 用 tensorflow 中 的 redice mean 取 得 训练 集 上 均 方 误差 。 
>>> loss= tf .rechoe mean (tf.square (y - y train)) 


>>># 使 用 梯度 下 降 法 估计 参数 Ww,b, 并 且 设 置 迭代 步 长 为 0.01, 这 个 与 Scikit- leam 中 的 
SarFegressor 2f l. 
>>> optimizer= t£.train.GradientDescentoptimizer (0.01) 


>>># 以 最 小 二 乘 损 失 为 优化 目标 。 
>>> train= optimizer.minimize (loss) 


>>># 初 始 化 所 有 变量 。 
>>> init=tf.initialize all variables() 


>>># 开 启 Tensorflow 中 的 会 话 。 
>>> sess= tf.Session() 


>>>+ 执 行 变 量 初始 化 操作 。 


>>> sess.nm (init) 


>>> IX 1000 轮 次 ,训练 参数 。 

>>> for step in xrange (0, 1000): 

>>> sess.run (train) 

>>> if step $200 ==0: 

>>> print step, sess.run(W), sess.run(b) 


0 [[0.32832965 0.01579139]] [- 0.06232916] 

200 [[0.06633329 0.06811267]] [~ 0.06111253] 
400 [[ 0.05831201 0.07677723]] [- 0.08568323] 
600 [[ 0.05788761  0.07736142]] [- 0.08667096] 
800 [[0.05786182 — 0.07741673]] [~ 0.08684841] 


>>># 准 备 测试 样本 。 
>>> test. negative= test.loc[test["Iype'] == 0][['Clunp Thickness", 'Gsll Size']] 
>>> test positive test. loc[test ["Iype'] == 1] [["Clump Thickness", 'Gsll Size']] 


>>># 以 最 终 更 新 的 参数 作 图 3- 8. 

>>> import matplotlib.pyplot as plt 

>>> plt.scatter (test_negative['Clump Thickness'], test negative['Cell Size'], marker= 'o', s= 200, c 
= red!) 

>>> plt.scatter (test_positive['Clump Thickness'], test_positive['cell Size'], marker= 'x', s= 150, c 
= 'black') 


>>> plt.xlabel ('Clunp Thickness!) 
>>> plt.ylabel ("Gell Size') 


>>> Le np.arange (0, 12) 


>>># 这 里 要 强调 一 下 ,我 们 以 0.5 作 为 分 界面 ,所 以 计算 方式 如 下 。 
>>> 1y= (0.5 - sess.runíb) -1x * sess.run(@ [0] [0]) / sess.run(W) [0] [1] 


>>> plt.plot (1x, ly, color = 'green') 
>>>pilt.show() J 


对 比 图 3-8 与 图 3-9 中 的 二 分 类 直线 的 位 置 ,可 以 发 现 使 用 Tensorflow 自 定义 线性 
分 类 器 也 可 以 取得 与 使 用 Scikit-learn 相近 的 效果 。 也 许 对 于 机 器 学 习 背 景 知 识 了 解 不 
多 的 读者 来 讲 ,这 样 按照 理论 和 算法 一 点 点 搭建 学 习 系统 实在 是 太 难 了 。 没 有 关系 ,我 们 
即将 介绍 另 一 个 对 Tensorflow 进一步 的 封装 ,以 求 与 Scikit-learn 的 使 用 接口 类 似 的 工 
HE skflow. 

skflow 非常 适合 于 熟悉 Scikit-learn 编程 接口 (API) 的 使 用 者 ,而 且 利 用 Tensorflow 
的 运算 架构 和 模块 封装 了 许多 经 典 的 机 器 学 习 模 型 ,如 线性 回归 器 深度 全 连接 的 神经 网 
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图 3-8 使 用 Tensorflow 自 定义 一 个 线性 分 类 器 在 “ 良 /恶性 乳腺 癌 
肿瘤 "数据 上 学 习 到 的 二 分 类 直线 ( 见 彩 图 ) 
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图 3-9 使 用 Scikit-learn 的 LogisticRegression 模型 训练 
得 到 的 二 分 类 直线 ( 见 彩 图 ) 


Pyho 机 器 学 习 及 实践 


络 (Deep Neural Network, fij fk DNN) 等 。 考 虑 到 代码 编写 风格 的 一 致 性 和 可 读 性 ,推荐 
在 今后 的 实践 中 使 用 skflow。 尽 管 如 此 ,skflow 仍然 支持 使 用 Tensorflow 的 基础 算 子 
自 定义 学 习 流程 ,特别 是 用 于 搭建 如 图 3-10( 来 自 https://www. tensorflow. org/) 所 示 
的 神经 网 络 。 为 了 让 读者 更 好 地 理解 Tensorflow 以 及 skflow 中 的 人 工 神 经 网 络 模 型 
(Artifical Neural Network) ,在 展示 如 何 实践 skflow 之 前 , 先 介绍 一 些 有 关 人 工 神经 网 
络 的 发 展 历 史 和 相关 知识 。 

神经 网 络 的 研究 起 源 于 20 世纪 50 一 60 年 代 。 那 个 时 候 还 没有 太 多 的 计算 机 科学 家 
参与 人 工 智能 的 研究 ,再 加 上 人 类 对 计算 机 的 了 解 也 刚刚 开始 ,于 是 一 些 AI 的 先驱 者 期 
待 可 以 借鉴 一 些 人 类 神经 科学 的 研究 成 果 来 构建 人 工 智能 。 一 些 研 究 神 经 元 的 生物 学 家 
发 现 了 神经 (大 脑 ) 信 息 传递 的 大 致 工作 原理 , 如 图 3-11 所 示 ,神经 元 的 树 突 (Dendrite) 
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E 3-10 Google Tensorflow 搭建 神经 网 络 图 3-11 神经 元 的 基本 结构 和 组 成 


接收 其 他 神经 元 传递 过 来 的 信息 ,然后 神经 细胞 体 对 信息 进行 加 工 之 后 ,会 通过 轴 突 
(CAxon) 把 加 工 后 的 信息 传递 到 轴 突 终端 (Axon terminal) 然 后 再 传递 给 其 他 神经 元 的 树 
突 。 就 这 样 ,大 量 的 神经 元 就 连接 成 了 一 个 结构 复杂 的 神经 网 络 。 

于 是 ,早期 人 工 智 能 的 研究 人 员 打 算 先 从 计算 机 模拟 人 类 神经 元 的 角度 切入 ,比较 具 
有 代表 性 的 是 弗兰克 。 罗 森 布 拉 特 (Frank Rosenblatt) 的 感知 机 (Perceptron) BE 
型 [16]。 几 乎 和 生物 学 上 的 神经 元 类 似 , 感 知 机 的 计算 结构 如 图 3-12 所 示 ,包括 交 维 输 
入 信号 (InpuD) x =< zi 5.22 7,1 77, XE AS $& (Parameters) [6] HE w =< w ,ro sn 
w, > 和 截 距 b, 输出 (Output) 信 号 y 等 。 
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图 3-12 罗 森 布 拉 特 感知 机 (Perceptron) 模 型 


罗 森 布 拉 特 感知 机 (Perceptron) 在 具体 运算 上 采用 线性 加 权 求 和 的 方式 处 理 输 入 信 
号 , 即 

yosign(w'x+b) (22) 
式 (22) 为 了 模拟 神经 元 的 行为 .定义 了 式 (23) 所 示 的 激活 (符号 ) 函 数 , 由 此 我 们 可 以 知道 

感知 机 最 终 会 产生 两 种 离散 数值 的 输出 (Output) 信 号 : 
Seya le =" (23) 

—üy, 2620 

事实 上 ,Rosenblatt 的 感知 机 (Perceptron) 模 型 最 大 的 贡献 并 不 在 于 其 对 神经 元 的 
结构 的 模拟 ,而 是 Rosenblatt 本 人 设计 了 一 套 算法 ,使 得 感知 机 可 以 通过 不 断 地 根据 训 
练 数 据 更 新 参数 ,达到 具备 线性 二 分 类 模型 的 学 习 能 力 。 这 个 算法 以 现在 的 眼光 看 来 与 


随机 梯度 下 降 (SGD) 方 法 很 像 ABLE fE oH mp HIE 2 — ATS REESE 
者 的 热情 。 因 为 这 实现 了 人 们 长 久 所 期 待 的 计算 机 具备 自 适应 能 力 的 愿景 。 

不 过 好 景 不 长 ,MIT 人 工 智能 实验 室 创始 人 Marvin Minsky 和 Seymour 在 1969 年 
出 版 了 一 本 题名 为 (Perceptrons》 的 书 , 其 中 严谨 地 分 析 了 感知 机 学 习 模型 ;并 且 使 用 异 
或 (XOR) 运 算 这 一 经 典 例子 ,道破 了 单 层 Perceptron 在 处 理 实际 问题 方面 的 局 限 性 。 正 
如 图 3-13 所 示 ,目前 所 了 解 的 感知 机 模型 可 以 处 理 线性 二 分 类 问题 , 即 可 以 对 AND, 
NAND 以 及 OR 这 些 运算 产生 的 类 别 结果 进行 区 分 ;但 是 很 显然 ,我 们 无 论 如 何 也 无 法 
找到 一 条 二 维 空间 的 直线 用 来 分 割 XOR 所 产生 的 数据 点 。 
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图 3-13 使 用 感知 机 区 分 并 (AND) ,与 非 (NAND) ,或 (OR) 以 及 异 或 
(XOR) 运 算 所 产生 的 数据 ,图 片 摘自 [8]( 见 彩 图 ) 


正 因为 Marvin Minsky 和 Seymour 的 这 本 著作 ,使 得 神经 网 络 的 研究 在 20 世纪 70 
年 代 陷 入 低潮 。 实 际 上 .,(Perceptrons》[17] 这 本 书 并 没有 完全 否定 单 层 感知 机 的 科学 贡 
献 ;同时 也 提 到 可 以 通过 从 加 多 层 感知 机 (Multi-layer Perceptrons) 来 完成 对 异 或 (XOR) 
运算 的 非 线性 拟 合 。 然 而 ,之 所 以 大 家 表 失 了 继续 对 感知 机 研究 的 热情 ,主要 是 因为 许多 
人 发 现 无 法 再 继续 使 用 Rosenblatt 的 学 习 算法 作用 在 多 层 感 知 机 上 。 一 方面 ,历史 证 明 
设计 并 验证 一 套 有 效 的 新 算法 总 是 要 花费 长 达 几 年 甚至 十 几 年 的 时 间 ; 另 一 方面 ,就 如 之 
前 所 提 到 的 ,虽然 Rosenblatt 提出 的 算法 与 随机 梯度 下 降 (SGD) 法 在 形式 上 类 似 .但 是 
式 (23) 这 种 分 段 函 数 导致 无 法 平滑 地 求 得 梯度 。 

不 过 ,依然 有 人 在 这 场 科研 寒冬 中 坚持 了 下 来 ,他 们 是 David Rumelhart, Geoffrey 
Hinton 和 Ronald Williams. M 1985 年 开始 ,这 三 位 科学 家 所 发 表 的 一 系列 论文 [18， 
19] 重新 激发 了 如 图 3-14 所 示 的 多 层 感 知 机 (人 工 神经 网 络 ) 的 研究 热潮 。 这 些 论文 重 
点 阐述 了 如 何 使 用 诸如 逻辑 斯 蒂 (Logistic Function) 这 类 连续 平滑 的 函数 替换 原 有 分 段 
的 符号 函数 (Sign) ,作为 激发 函数 ;以 及 如 何 使 用 回溯 (Back Propagating,BP) 算 法 逐 层 
更 新 参数 。 

接 下 来 的 几 年 ,从 事 人 工 神经 网 络 (Artificial Neural Network, ANN) 研 究 的 科研 人 
员 渐 渐 陷 人 了 两 难 的 境地 : 一 方面 大 家 越发 觉得 隐藏 层 数 (hidden layers) 更 多 的 神经 网 
络 可 以 表达 更 加 复杂 的 现实 数据 ,使 深度 神经 网 络 拥 有 更 高 的 性 能 ;但 是 另 一 方面 ,一 旦 
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图 3-14 多 层 感知 机 (人 工 神经 网 络 ) 模 型 架构 ,图 片 摘自 于 [21] 


隐藏 层 数 增加 得 过 多 , BP 算法 在 回溯 误差 时 衰退 得 越 明 显 , 其 至 无 法 对 输出 层 (input 
layer) 参 数 的 更 新 起 到 明显 作用 ,而 且 更 容易 让 模型 优化 陷入 局 部 最 优 解 。 

2006 年 , Hinton 教授 的 研究 团队 再 次 发 表 论文 [20] 利用 预 训练 (Pre-training) 的 方 
式 缓解 了 局 部 最 优 解 的 问题 ,将 隐藏 层 的 数量 推进 到 7 层 , 并 由 此 掀起 了 深度 学 习 (Deep 
Learning) 的 热潮 。 

之 所 以 介绍 上 述 关 于 神经 网 络 的 基础 知识 和 发 展 历史 ,是 因为 笔者 即将 要 在 代码 76 
中 使 用 skflow 中 的 深度 神经 网 络 (DNN) 对 “美国 波士顿 房价 ”进行 回归 预测 ,并 且 与 集 
成 回归 模型 对 比 性 能 差异 ;同时 ,也 方便 读者 理解 代码 76 中 对 DNN 的 各 项 配置 。 


| 代码 76: 使 用 skflow 内 置 的 LinearRegressor .DNN 以 及 Scikit-learn 中 的 集成 
i 回归 模型 对 “美国 波士顿 房价 ”数据 进行 回归 预测 


>>># 一 次 性 导入 skleam 中 的 多 个 模块 。 
>>> fram skleam import datasets, metrics, preprocessing, cross_validation 


>>> # f# FH datasets. load boston 读 取 美 国 波士顿 房价 数据 。 
>>> boston= datasets.load boston() 


>>>+ 获 取 房 屋 数 据 特征 以 及 对 应 房价 。 
>>>X y-boston.data, boston.target 


>>># 分 割 数据 ,随机 采样 25% 作 为 测试 样本 。 
>>>X train, X test, y train, y test- cross validaticn.train test split (x, y, test_size=0.25, 
randam state- 33) 


>>># 对 数据 特征 进行 标准 化 处 理 。 
>>> scaler- preprocessing. Standardscaler () 
>>>X_train= scaler.fit transform(X train) 
>>>X_test= scaler.transform(X test) 


>>> FA skflow, 
>>> import skflow 


>>> + f# FH. skflow 的 LinearRegressor, 

>>> tf lr-skflow.TensorFlowLinearRegressor (steps= 10000, learning rate= 0.01, batch size- 50) 
>>> tf lr.fit(X train, y train) 

»»»tf lr y predict-tf lr.predict(X test) 


>>># 输 出 skflow 中 LinearRegressor 模 型 的 回归 性 能 。 

>>> print "The mean absoluate error of Tensorflow Linear Regressor on boston dataset is', metrics.mean 
absolute error(tf lr y predict, y test) 

>>> print "The mean squared error of Tensorflow Linear Regressor on boston dataset is', metrics.mean 
squared error(tf lr y predict, y test) 

>>>print "The R- squared value of Tensorflow Linear Regressor on boston dataset is', metrics.r2 score 
(t£ lr y predict, y test) 


Step #1, avg. loss: 595.96338 
Step # 1001, epoch #125, avg. loss: 105.57941 

Step $2001, epoch # 250, avg. loss: 21.24366 

Step # 3001, epoch #375, avg. loss: 21.37193 

Step # 4001, epoch # 500, avg. loss: 21.29627 

Step $ 5001, epoch # 625, avg. loss: 21.21216 

Step # 6001, epoch # 750, avg. loss: 21.18802 

Step # 7001, epoch # 875, avg. loss: 21.19276 

Step # 8001, epoch # 1000, avg. loss: 21.28822 

Step #9001, epoch #1125, avg. loss: 21.17799 

‘The mean absoluate error of Tensorflow Linear Regressor on boston dataset is 3.51069934875 
‘The mean squared error of Tensorflow Linear Regressor on boston dataset is 25.1175995458 


‘The R- squared value of Tensorflow Linear Regressor cn boston dataset is 0.620007674595 


>>># 使 用 skflow 的 INNRegressor, 并 且 注 意 其 每 个 隐 层 特征 数量 的 配置 。 

>>> tf£_dnn_regressor= skflow.TensorF1owrNNRegressor (hidden units= [100, 40], 
steps= 10000, leaming rate-0.01, batch size- 50) 

>>>tf dm regressor.fit(X train, y train) 

>>>tf dm regressor y predict-tf dmn regressor.predict (X test) 


>>> + $f iB skflow 中 INNERegressor 模 型 的 回归 人 性能。 

>>> print "The mean absoluate error of Tensorflow ONN Regressor on boston dataset is', metrics.mean_ 
absolute error(tf dnn regressor y predict, y test) 

»»»print "The mean squared error of Tensorflow INN Regressor on boston dataset is', metrics.mean - 
Squared error(tf dnn regressor y predict, y test) 

>>> print "The R- squared value of Tensorflow INN Regressor on boston dataset is', metrics.r2 score(tf 
.dnn regressor y predict, y test) 


Step #1, avg. loss: 640.79572 

Step #1001, epoch #125, avg. loss: 25.67079 
Step # 2001, epoch # 250, avg. loss: 
Step # 3001, epoch #375, avg. loss: 
Step # 4001, epoch # 500, avg. loss: 
Step # 5001, epoch # €/5, avg. loss: 
Step # 6001, epoch #750, avg. loss: 1.45105 

Step #7001, epoch # 875, avg. loss: 1.30371 

‘Step # 8001, epoch # 1000, avg. loss: 1.20998 

Step #9001, epoch #1125, avg. loss: 1.12960 

‘The mean absoluate error of Tensorflow INN Regressor an boston dataset is 2.52779822968 
‘The mean squared error of Tensorflow DNN Regressor on boston dataset is 14.2553529174 
‘The R- squared value of Tensorflow ONN Regressor on boston dataset is 0.803518644048 


>>># 使 用 Scikit- leam 的 RandamForestRegressor, 
>>> frm skleam.ensenble import RandomForestRegressor 
>>> rfr= RandarEorestFegressor () 


>>> rfr.fit X train, y train) 
>>> rfr y predict- rfr.predict (X test) 


>>># 输 出 Scikit 中 FandomgorestFegressor 模 型 的 回归 性 能 。 

>>> print. "The mean absoluate error of Skleam Random Forest Regressor on boston dataset is', metrics. : 
mean absolute error (rfr y predict, y test) 

>>> print “The mean squared error of Sklearn Random Forest Regressor on boston dataset is', metrics. 

mean squared error(rfr y predict, y test) 

>>> print. “The R- squared value of Sklearn Random Forest Fegressor on boston dataset is", metrics.r2_ 

score(rfr y predict, y test) 


‘The mean absoluate error of Sklearn Random Forest Regressor on boston dataset is 2.50771653543 
‘The mean squared error of Sklearn Random Forest Fegressor on boston dataset is 14.3741984252 
‘The R- squared value of Sklearn Random Forest Regressar on boston dataset is 0.796699065196 


| 


通过 观察 代码 76 的 一 系列 输出 ,可 以 对 比 发 现 深度 神经 网 络 的 确 可 以 表现 出 更 高 的 
性 能 。 但 是 ,需要 提醒 读者 的 是 , 越 是 具备 描述 复杂 数据 的 强力 模型 , 越 容 易 在 训练 时 陷 
入 过 拟 合 (Overfitting)。 这 一 点 ,请 读者 在 配置 DNN 的 层 数 和 每 层 特征 元 的 数量 时 要 特 
别 注 意 。 
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对 于 想 要 深入 了 解 机 器 学 习 模 型 ,并且 把 他 们 真正 用 于 实践 的 读者 而 言 ,这 一 章 的 内 
容 是 必 不 可 少 的 。 事 实 上 ,不 论 是 对 数据 的 预 处 理 , 还 是 对 于 模型 参数 的 限制 以 及 超 参 数 
的 调 优 ,甚至 是 使 用 更 为 强力 的 模型 与 框架 ,都 很 有 可 能 显著 地 提升 性 能 。 尽 管 从 科学 研 
究 的 角度 ,许多 人 关注 如 何 设计 模型 与 编写 训练 参数 的 算法 ;但 是 .作为 工业 界 的 从 业 人 
员 和 机 器 学 习 任 务 的 实践 者 ,更 加 注重 如 何 最 大 限度 地 发 挥 既 有 模型 在 特定 数据 分 析 任 
务 中 的 性 能 。 

因 篇 幅 限 制 , 无 法 逐一 对 介绍 的 新 模型 进行 性 能 提升 的 实践 .希望 感 兴趣 的 读者 参考 
本 章节 的 示例 代码 http://pan. baidu. com/s/1dENAUTr 以 及 http://pan. baidu. com/ 
s/ImhQe4g4 进一步 学 习 , 并 欢迎 致 信 讨 论 。 


如 果 读者 已 经 阅读 到 这 一 个 章节 ,那么 非常 高 兴 地 通知 您 : 截至 目前 ,您 所 学 习 到 的 
理论 技术 已 经 足以 应 对 现实 生活 中 常见 的 问题 。 因 此 ,本 书 的 最 后 一 个 章节 将 带领 读者 
正式 进入 机 器 学 习 的 竞赛 实战 。 我 们 选取 目前 世界 上 最 为 流行 ,同时 也 是 认可 度 最 高 , 参 
与 人 数 最 多 的 线 上 竞赛 平台 Kaggle(https://www. kaggle. com/); 并 且 将 逐步 教会 大 家 
如 何 使 用 学 习 过 的 模型 和 编程 技巧 挑战 业界 IT 公司 .科研 院 所 在 Kaggle 上 发 布 的 若干 
机 器 学 习 任务 。 


pa kaggle 平 台 简介 


Kaggle 是 当前 世界 上 最 为 流行 的 ,采用 众 包 (Crowdsouring) 策 略 ,为 科技 公司 、 研 究 
院 所 乃至 高 校 课程 提供 数据 分 析 与 预测 模型 的 竞赛 平台 。 该 平台 成 立 于 2010 年 4 月 ,由 
现任 CEO 的 Anthony Goldboom 等 人 创立 。 公 司 总 部 设 在 美国 加 州 旧金山 市 。 

Kaggle 平 台 设立 的 宗旨 在 于 : 汇聚 全 世界 从 事 数 据 分 析 与 预测 的 专家 以 及 兴趣 爱 
好 者 的 集体 智慧 ,利用 公开 数据 竞赛 的 方式 ,为 科技 公司 、 研 究 院 所 和 高 校 课程 中 的 研发 
课题 ,提供 有 效 的 解决 方案 。 这 一 初衷 使 得 问题 提出 者 与 解决 者 获得 了 双赢 。 

一 方面 ,许多 科技 公司 、 研 究 院 和 高 校 拥 有 大 量 的 数据 分 析 任务 和 研发 课题 。 如 果 仅 
仅 依 靠 有 限 的 内 部 研究 人 员 处理 和 分 析 : 不 但 耗费 大 量 的 时 间 ,而 且 支付 给 这 些 拥有 博士 
学 位 的 研究 人 员 的 薪资 也 是 极其 高 昂 的 。 这 也 是 为 什么 只 有 少数 实力 雄厚 的 高 新 科技 公 
司 拥有 内 部 的 研究 院 , 如 Google Research, Microsoft Research .百度 深度 学 习 研 究 院 等 
等 。 如 果 仅 仅 拿 出 一 小 部 分 奖金 (迄今 为 止 ,Kaggle 平台 上 最 常见 的 悬赏 是 $50 000, 大 
约 是 一 位 在 美国 IT 企业 工作 的 普通 职位 科研 人 员 一 个 季度 的 薪水 ), 便 可 以 向 全 世界 的 
聪明 人 征集 解决 方案 , 那 何 乐 而 不 为 呢 ? 

另 一 方面 , 越 来 越 多 有 从 事 数 据 分 析 与 预测 工作 意愿 的 兴趣 爱好 者 ,因为 难以 获得 大 
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量 可 供 分 析 的 数据 ,使 得 自己 的 才华 难以 施展 。 造 成 这 一 问题 的 主要 原因 在 于 ,科研 机 构 
和 大 型 企业 非常 看 重 数据 的 价值 ,特别 是 那些 和 自己 主流 业务 相关 的 数据 。 比 如 ,Google 
服务 器 上 所 存储 的 全 世界 互联 网 用 户 的 搜索 日 志 。 对 于 外 部 个 体 的 兴趣 爱好 者 ,要 想 获 
得 这 些 企业 和 科研 机 构 的 数据 几乎 是 不 可 能 的 事 。 但 是 ,如 果 有 一 个 像 Kaggle 这 样 著名 
的 大 型 平台 , 随 着 这 上 面 聚 拢 的 兴趣 爱好 者 甚至 行业 专家 越 来 越 多 ,大 型 企业 和 科研 机 构 
也 会 逐渐 信赖 这 些 参 赛 者 ,并 且 放心 地 提供 一 些 重要 数据 。 

如 果 读 者 是 第 一 次 登录 Kaggle 平台, 如 图 4-1 所 示 , 那 么 您 可 以 查阅 所 有 的 竞赛 资 
料 , 只 是 无 法 下 载 数 据 和 提交 结果 。 


eon Bix 
Download Build Submit 


Active Competitions Active Competitions 


All Competitions @ Second Annual Data Science Bowl 


Cervical Cancer Screening © m 


Melo prevent cerca cancer by ident yg at-risk populations 


Kn The Allen Al Science Challenge Bim 
is your model smarter than an anh grader = 


图 4-1 Kage 平台 主页 


如 果 已 经 注册 一 个 Kaggle 账户 并 且 通 过 邮箱 验证 之 后 , 便 可 以 选择 其 中 一 个 竞 
赛 0, 并 且 按 照 如 下 的 流程 参与 即 可 。 

。 下 载 数据 (Download) : 几乎 所 有 类 型 的 Kaggle 项 目 都 会 在 线 提供 数据 下 载 。 间 
且 , 如 图 4-2 所 示 , 用 户 需 要 在 第 一 次 下 载 数据 的 时 候选 择 接 受 竞赛 要 求 的 条 款 ， 


O ”拓展 小 贴 士 32: 平台 上 有 正在 进行 的 竞赛 和 已 经 完成 的 竞赛 两 种 类 型 。 对 于 正在 进行 的 竞赛 ,只 要 参与 并 且 提 交 过 结果 ,都 会 在 
账户 中 有 相应 记录 ;同样 可 以 选择 已 经 完成 的 竞赛 ,只 是 不 会 对 您 在 平台 的 积分 有 任何 贡献 。 


EX 530,000 - 118 teams 


= 
s- BNP Paribas Cardif Claims Management 
BNP PARIBAS - 
CARDIF Wed 3 Feb 2016 
Dashboard Competition Details > Get the Data > Make a submission 
Home ^ 
Data . Data Files 


Make a submission 

Information ° Pa 

on You must accept this competition's rules 
before you'll be able to download data files. 

By clicking on the "I understand and accept" button below, 

you are indicating that you agree to be bound by the rules. 


| lunderstand and accept do not accept 


——— ree 


图 4-2 Kagge 竞赛 数据 下 载 页 面 


。 搭建 模型 (Build) : 如 果 已 经 在 自己 的 电脑 上 完整 配置 了 搭建 模型 所 需要 的 编程 
环境 和 工具 包 , 或 者 拥有 运算 能 力 更 加 强大 、 资 源 更 加 丰富 的 服务 器 平台 ;那么 ， 
在 本 地 计算 机 上 设计 学 习 模 型 无 疑 是 一 个 好 的 选择 。 但 是 ,如 果 手 头 没有 配置 完 
善 的 运算 设备 的 话 ,Kaggle 则 为 您 提供 了 可 以 线 上 编程 的 云 平台 。Kaggle 的 云 
平台 支持 多 种 适合 建 模 的 编程 语言 .如 图 4-3 所 示 , 包 括 比 较 流行 的 Python. R 
等 ;并 且 这 个 平台 无 一 例外 地 安装 了 所 有 本 书 中 提 到 的 工具 包 。 美 中 不 足 的 是 ， 
当下 这 个 平台 无 法 为 每 位 用 户 提供 过 多 的 计算 资源 ,普通 账户 只 能 使 用 512MB 
的 硬盘 空间 ,而 且 单 个 运算 脚本 最 多 可 以 运行 20 分 钟 。 

* 提交 结果 (Submit) : Kaggle 不 会 要 求 参赛 者 提交 编程 源 代码 ,只 需 根 据 限定 的 格 
式 上 交 最 终 预 测 结果 的 文件 即 可 。 一 般 情况 下 ,每 个 竞赛 都 独立 的 格式 范例 ,并 
且 与 训练 数据 等 一 起 提供 给 参赛 者 下 载 。 参 赛 者 在 第 一 次 提交 结果 文件 的 时 候 ， 
Kaggle 会 询问 选手 参与 竞赛 的 组 队 方 式 , 如 图 4-4 所 示 , 即 个 人 还 是 团队 。 一 且 
提交 的 文件 符合 限定 的 格式 ,平台 会 根据 目标 竞赛 所 设计 的 评估 程序 ,对 选手 当 
前 提交 的 结果 即时 做 出 评价 和 排名 ;并且 .如 图 4-5 Bros. 多 数 竞 赛 都 会 限制 参赛 
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Datasets Scripts Jobs 


Enter a title.. 
Dashboard BNP PARIBAS 
CARDIF 
— : === m= 
# The environment y the eg É image: pom 7/eithub. con kagg1e /docker pe 
Python 
# For exam running this (by clicki RMarkdown 


图 4-3 Kaggle 在 线 编程 页 面 


$30,000 - 120 teams 


BNP Paribas Cardif Claims Management 


* 
Wed 3 Feb 201€ 


Merger and tst Subr 


Mon 18 Apr 2016 (2 months to go) 


Submit to BNP Paribas Cardif Claims Management 


(You can always add team 
members later.) 


E 


图 4-4 Kagge 参赛 组 队 方 式 选择 


$30,000 + 120 teams 


Competition Details » Getthe Data » Makea submission 


Make a submission 


üu You have 5 entries today. This resets 2.1 hours from now (00:00 UTO, 


Click or drop your submission here 


图 4-5 Kaggle 竞赛 结果 提交 页 面 


者 每 天 提交 结果 的 次 数 ,这 一 点 希望 读者 留意 。 当 竞赛 结束 之 后 ,Kaggle 会 以 每 


位 参赛 者 历史 最 好 成 绩 做 出 最 终 的 排名 。 


按照 上 述 三 个 步骤 便 可 以 尽情 在 Kaggle 上 实战 了 。 在 后 续 的 章节 里 ,将 介绍 三 个 长 
期 在 Kaggle 平 台 上 挂 载 的 实践 任务 ,它们 是 : 4.2 Titanic EXER Ze Hii 4. 3 IMDB 影评 
得 分 估计 以 及 4.4 MNIST 手写 体 数字 图 片 识别 。 同 时 为 了 让 大 家 更 快 熟 悉 3. 2 节 介 绍 
过 的 流行 机 器 学 习 模型 和 框架 ,我 们 在 解决 这 些 竞赛 任务 的 时 候 不 仅 使 用 了 Scikit-learn 
中 的 经 典 模型 ,而 且 分 别 在 “4. 2 Titanic 坎 难 乘客 预测 ” 节 中 额外 采用 了 XGBoost 模型 ; 
在 “4.3 IMDB 影评 得 分 估计 ” 节 中 使 用 了 Word2Vec 词 向 量 技术 ;甚至 在 “4.4 MNIST F 


写 体 数字 图 片 识别 " 节 使 用 了 Google Tensorflow 的 深度 学 习 


尽管 因 能 力 所 限 ,我 们 在 书 中 的 代码 无 法 帮助 读者 们 取得 理想 的 竞赛 名 次 ;但 是 , 笔 
者 由 圳 地 希望 这 些 代码 至 少 可 以 起 到 "抛砖引玉 ”的 作用 ,为 各 位 今后 更 加 出 色 的 实战 编 


程 提供 些许 参考 。 


n ZU Titanic BERSIN 


与 “2. 1.1.5 决策 树 ” 节 所 探索 的 任务 一 样 ,Kaggle 也 在 其 平台 上 发 布 了 “泰坦 尼克 
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Merger and 1st Submission Deadin| 
 @ — 


e— T ISƏaT-> T C... 
Wed 3 Feb 2016 Mon 18 Apr 2016 (2 months to go) 


File Format 

Your submission should be 
in CSV format. You cen 
upload this in a zip/gz/rar/7z 
archive if you prefer. 


框架 。 
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号 震 难 乘客 ”的 预测 任务 ;并 


系统 也 对 他 们 所 提交 的 结果 做 了 测试 ,并 且 发 布 了 排名 。 


地 尝试 书 中 提 及 的 机 器 学 习 模 型 ,并 


目的 。 


正如 图 4-6 所 示 ,在 Titanic 急难 乘客 预测 任务 的 竞赛 主页 的 左边 栏 (Dashboard) ,您 
不 仅 可 以 查阅 当前 竞赛 的 信息 (Information) ,包括 竞赛 的 描述 (Description) ,如何 评 价 提 
交 结果 (Evaluation) ` 竞 赛 规则 (Rules) 还 有 奖金 悬赏 的 细节 (Prizes) ;还 能 够 在 Data 页 面 


此 ,作者 打算 带领 读者 ,通过 这 项 兼 具有 纪念 和 缅怀 意义 的 任务 ,来 完成 一 次 真正 
的 实战 演练 ,并 与 他 人 同 台 竞技 。 这 跟 之 前 我 们 在 书 中 的 实践 略 有 不 同 的 是 , Kaggle 上 
的 实战 问题 都 不 会 提供 测试 集 的 正确 答案 ,包括 这 项 教学 任务 。 所 以 ,笔者 期 待 大 家 不 断 
f 且 竭尽 所 能 地 优化 它们 。 只 有 这 样 , 朋 友 们 才能 从 不 
懈 的 实战 中 积累 经 验 ,最 终 达 到 熟练 掌握 机 器 学 习 的 应 用 技巧 ,快速 构建 机 器 学 习 系 统 的 


中 下 载 必要 的 数据 ,进而 在 Make a submission 页 面 提 交 结 果 。 


Dashboard 


Home 
Data 
Make a submission 


Knowledge * 3.718 teams 


Titanic: Machine Learning from Disaster 


Competition Details » Getthe Data > Makea subr 


sion 


Predict survival on the Titanic using Excel, 
Python, R & Random Forests 


See best practice code and explore visualizations of the Titanic datase 


n Kaggle 


Submit directly to the competition, no data download or local environment 
needed! 


The sinking of the RMS Titanic is one of the most infamous shipwrecks in history. On 
April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an 
iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy 
shocked the international community and led to better safety regulations for ships. 


。 下 载 数据 : 虽然 我 们 可 以 在 Data 页 面 看 到 7 个 文件 下 载 。 但 是 ,用 于 竞赛 的 数据 
只 有 train. csv(59. 76KB) 和 test. csv(27. 96KB) 文 件 。 笔 者 这 里 下 载 这 两 份 数据 


© https://www. kaggle. com/c/titanic 


图 4-6 Titanic EXESE E BUM +J D 


fF 且 这 个 预测 问题 一 直 作为 其 平台 的 教学 任务 , 供 初 学 者 熟悉 
Kaggle 的 竞赛 流程 。 时 至 今日 已 有 几 千 名 选手 设计 了 他 们 的 模型 ,同时 网 站 的 自动 评估 


到 本 地 计算 机 的 Datasets/Titanic 文件 夹 下 , 

。 搭建 模型 : 接 下 来 ,读者 可 以 有 两 种 选择 编写 代码 ,一 种 是 在 自己 的 本 地 计算 机 
编写 代码 ; 另 一 种 是 直接 在 Kaggle 平 台 上 编写 代码 并 在 线 运行 。 对 于 后 者 ,您 只 
需 在 左边 栏 点 击 New Script, 进 入 类 似 于 图 4-2 所 示 的 Kaggle 在 线 编程 页 面 , 按 
照 所 给 的 代码 范例 ,并 注意 文件 读 写 的 正确 路 径 即 可 。 这 里 只 给 出 本 地 IPython 
Notebook 中 运行 的 代码 。 如 下 面 的 代码 77 所 示 , 不 仅 使 用 随机 森林 分 类 器 与 
XGBoost 模型 ,而且 均 采用 交叉 验证 的 方法 搜索 最 优 的 超 参数 组 合 。 


[ 代码 77: Titanic 坎 难 乘客 预测 竞赛 编码 示例 


>>> Sh À. pandas 方 便 数据 读 取 和 预 处 理 。 
>>> import pandas as pd 


>>># 分 别 对 训练 和 测试 数据 从 本 地 进行 读 取 。 

>>> train= pd.read csv('../Datasets/titanic/train.csv') 

>>> test- pd.read csv('../Datasets/titanic/test.csv') 

>>># 先 分 别 输出 训练 与 测试 数据 的 基本 信息 。 这 是 一 个 好 习惯 ,可 以 对 数据 的 规模 .各 个 特征 
的 数据 类 型 以 及 是 否 有 缺失 等 ,有 一 个 总 体 的 了 解 。 

>>> print train.info() 

>>> print test.info() 


pue] 
i 
Ë 
š 


dtypes: float64(2), inte4(5), cbject (5) 


memory usage: 90.5+ KB 
None 


<class 'pandas.core.frame.DataFrame'» 
Inté4Index: 418 entries, 0 to 417 
Data colums (total 11 colums): 
PassengerId 418 non-null int64 
Fclass 418 nom- null int64 

Nene 418 nm- null cbject 

Sex 418 non- null cbject 

Joe 332 nom- mull floated 

SibSp 418 non- null int64 

Parch 418 non- null int64 

Ticket 418 non- mill cbject 

Fare 417 non- null floated 

Cabin 91 non- null d»ject. 
Enbarked 418 non- null cbject 

dtypes: floate4 (2), inté4(4), d»ject(5) 
memory usage: 39.2+ KB 

None 


>>># 按 照 我 们 之 前 对 Titanic 事 件 的 经 验 , 人 工 选 取 对 预测 有 效 的 特征 。 
>>> selected features- ['Pclass', 'Sex', 'Age', "Embarked', 'SibSp', 'Parch','Fare'] 


>>>X traire train[selected features] 
>>> X test-test[selected features] 


>>> y train- train['Survived'] 


>>># 通 过 我 们 之 前 对 数据 的 总 体 观察 ,得 知 Embarked 特 征 存在 缺失 值 ,需要 补 完 。 
>>>print X train['Enbarked'] value counts() 
>>> print X test['Enbarked'].value counts 0 


s 64 
16 
9 T 


>>># 对 于 Embarked 这 种 类 别 型 的 特征 ,我 们 使 用 出 现 频率 最 高 的 特征 值 来 填充 ,这 也 是 相对 可 以 
减少 引入 误差 的 一 种 填充 方法 。 


>>> X_train["Erbarked'].fillna('s', inplace- True) 
>>> X_test ['Brbarked"].fillna('s', inplace- True) 


>>># 而 对 于 age 这 种 数值 类 型 的 特征 ,我 们 习惯 使 用 求 平 均值 或 者 中 位 数 来 填充 缺失 值 , 也 是 相 
对 可 以 减少 引入 误差 的 一 种 填充 方法 。 

>>>X train['mge"].fillnaCX train['Age!] mean(), inplace- True) 

»»»X test['Age'].fillna(X test['Age"] mean(), irplace=True) 

>>>X test['Fare'].fillna(X test['Fare'] mean (), inplace- True) 


>>># 重 新 对 处 理 后 的 训练 和 测试 数据 进行 查验 ,发 现 一 切 就 绪 。 
>>>X_train.info() 


<class 'pandas.core. frame. DataFrame'> 
‘Inté4Index: 891 entries, 0 to 890 
Data colums (total 7 colums) : 
Pelass 891 non- null int64 


Sex 891 non- mll cbject: 
Ke 891 non- mull float64 
Enbarked 891 non- mull dbject 
Sibsp 891 non- mull int64 
Parch 891 non- null inte4 
Fare 891 non- mill floate4 


types: floated (2), inte4(3), dbject (2) 
memory usage: 55.7+ KB 


5»»X test.info() 


<class 'pandas.core.frame.DataFrame'» 
Inté4Index: 418 entries, 0 to 417 
Data colums (total 7 colums) : 
Felass 418 non- null int64 


Sex 418 non- mull. cbject 
Me 418 non- mull floaté4 
Bibarked 。 418 nom- mull cbject 
sibsp 418 non- mull int64 
Parch 418 non- mll int64 
Fare 418 ncn- mull floaté4 


types: floaté4 (2), inté4 (3), dbject (2) 
memory usage: 26.1+KB 


>>># 接 下 来 便 是 采用 Dictvectorizer 对 特征 向 量化 。 
>>> from sklearn.feature extraction import DictVectorizer 
>>> dict_vec= DictVectorizer (sparse= False) 
>>>X train-dict vec.fit transfom(X train.to dict (orient= 'record')) 
>>> dict vec.feature names - 
[age 
"Enbarked=C', 
"Erbarked- Q', 
"Inbarked- S*, 


"Sex" ferale', 
'Sex-male', 
'sibgp'] 
>>> X_test=dict_vec.transform(X_test.to dict (orient- 'reoord")) 
>>> JÁ. skleam.ensenble rfi A RandamWorestClassifier, 
>>> from skleam.ensanble import RandanforestClassifier 
>>># 使 用 默认 配置 初始 化 RandonforestClassifier, 


>>> rfc- FandomgorestClassifier() 


>>># 从 流行 工具 包 xost FÀ XEBclassifier 用 于 处 理 分 类 预测 问题 。 
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>>> from wpoost import XEBClassifier 
>>># 也 使 用 默认 配置 初始 化 xEBclassifier。 
>>> x= XEBclassifier() 


>>> frm skleam.cross validation import cross val score 

>>> # (8 FA 5 折 交叉 验证 的 方法 在 训练 集 上 分 别 对 默认 配置 的 Ranconorestclassifier 以 及 
XEBClassifier 进 行 性 能 评估 ,并 获得 平均 分 类 准确 性 的 得 分 。 

>>> cross_val_soore(rfc, X train, y train, cv=5).mean() 

0.80591729091594499 

>>> cross val score (xc, X train, y train, cv=5) .mean() 

0.81824559798311003 


>>># 使 用 默认 配置 的 RandonforestClassifier 进行 预测 操作 。 

>>> rfc. fit X train,y train) 

>>> rfc_y predict- rfc.predict X test) 

>>> rfc_submission=pd.DataFrame (('FassengerId': test ["Passengerid'), 'Survived': rfc y predict}) 
>>># 将 默认 配置 的 RandomForestClassifier 对 测试 数据 的 预测 结果 存储 在 文件 rfc simission. 
csv 中 。 

»»»rfc sümission.to csv('../Datasets/Titanic/rfc sumission.csv', index- 

False) 


>>> # 使 用 默认 配置 的 xcBclassifier 进 行 预测 操作 。 

>>> xobc.fit X train, y train) 

XGRClassifier(base score- 0.5, colsemple bylevel=1, colsample bytree- 1, 
game= 0, learning rate-0.1, max delta step- 0, max depth- 3, 
min child weight= 1, missing=None, n_estimators= 100, nthread=- 1, 
Objectives "binary:logistic', reg alpha-0, reg lanbda-1, 
scale pos weight- 1, sede 0, silent- True, subsample- 1) 


>>> mgbc_y_predict= xgbc.predict (X test) 

>>># 将 默认 配置 的 XEBclassifier 对 测试 数据 的 预测 结果 存储 在 文件 xoc sumission 
ew, 

>>> xgbc sumission-pd.DataFrame (('PassengerId' : test ['PassengerId'], 

"Survived": xgbc_y predict}) 

xoc sumüssicn.to csv('../Datasets/Titanic/xjpc sumission.csv', index- 

False) 


>>># 使 用 并 行 网 格 搜索 的 方式 寻找 更 好 的 超 参 数组 合 ,以 期 待 进一步 提高 xcBclassifier 的 预测 
性 能 。 

>>> from sklearn.grid search import Gridsearchcv 

>>> params- ('max depth':rangeQ, 7), 'n estimators':range(100, 1100, 200), 

"leaming rate':[0.05, 0.1, 0.25, 0.5, 1.0]} 


>>> ugbc_best= xcaClassifier () 
>>> gs= GridSearchCv (oc best, params, n jcbs-- 1, c= 5, verbose- 1) 
>>> gs.fit X train, y train) 


Fitting 5 folds for each of 125 candidates, totalling 625 fits 


[Parallel(n jdos-- 1)]: Done 122 tasks | elapsed: 10.05 
[Parallel(n jdos-- 1)]: Done 278 tasks | elapsd: 21.75 
[Parallel(n jdos-- 1)]: Done 528 tasks | elapsed: 45.45 


[Parallel(n jdos--1)]: Done &25 out of 625 | elapsed: 54.8s finished 


Gridsearchcv (c= 5, error score- 'raise', 
estimator» XxClassifier(base score= 0.5, colsample_bylevel= 1, 
colsample bytree- 1, 
game= 0, learning rate= 0.1, max delta step-0, max deptir 3, 
min child weight- 1, missing=None, n estimators- 100, nthreade- 1, 
cbjectiver 'binary:logistic', reg alpha- 0, reg Lanbiel, 
scale pos weight-1, seed- 0, silent- True, subsanple- 1), 
fit params- (), iid: True, n jdbs-- 1, 
param grid- ('n estimators': [100, 300, 500, 700, 900], "learning rate': [0.05, 0.1, 0.25, 0.5, 1. 
0], max depth': [2, 3, 4, 5, 6l), 
pre dispatd- '2* n jdbs', refit= True, scoring=None, verbose- 1) 


>>># 查 验 优化 之 后 的 XEBClassifier 的 超 参 数 配置 以 及 交叉 验证 的 准确 性 。 
>>> print gs.best_ score 

>>> print gs.best_params_ 

0.835016835017 

{'n_estimators': 100, "learning rate': 0.1, "mex depth': 5) 


>>># 使 用 经 过 优化 超 参 数 配 置 的 XEBclassifier 对 测试 数据 的 预测 结果 存储 在 文件 xoc best 


sumission.csv 中 。 


»»»xgbc best y predict- gs.predict(X test) 
>>> xgbe best sutmission-pd.DataFrame (( 'PassengerTd': test['PassengerTd'], 
'Survived': xoc best y predict]) 


>>> xgoc_best_submission.to_csv('../Datasets/Titanic/sgbc best sunmission.csv', index- False) 


E 
例 提 交 


I 


交 结 果 : 着 重 注意 的 是 ,在 今后 的 实战 中 ,一 定 要 严格 遵守 竞赛 数据 中 所 提供 的 样 
文件 的 格式 。 因 为 所 有 参赛 选手 所 提交 的 文件 ,都 会 在 网 站 后 台 由 程序 自动 按照 


Evaluation 中 的 评估 函数 进行 评价 ,而 且 稍 有 不 符合 格式 的 提交 文件 都 不 会 被 评估 程序 


所 考量 
按 


,更 不 必 说 取得 竞赛 的 名 次 。 
照 代 码 77 所 设 定 的 输出 ,得 到 3 个 用 于 提交 预测 结果 的 文件 : rfc_submission 


.esv,xgbe submission. csv 以 及 xgbc_best_submission. csv; 并 且 如 图 4-7 所 示 ,Kaggle 


竞赛 平台 的 自动 测评 系统 给 出 了 上 述 3 个 提交 文件 的 最 终 性 能 表现 。 图 4-7 所 示 的 
Kaggle 测评 结果 也 许 有 些 出 乎 意料 ,我 们 原本 以 为 经 过 超 参 数 搜索 和 优化 之 后 的 模型 可 
以 取得 更 好 的 预测 性 能 ,但 是 事实 恰恰 相反 。 在 今后 的 实践 中 也 有 可 能 出 现 这 样 的 情况 ， 
究 其 原因 是 因为 无 法 保证 现实 数据 都 来 源 于 同一 种 分 布 ,因此 尽管 模型 经 过 交叉 验证 和 
超 参 数 搜索 等 步骤 处 理 , 也 不 能 保证 在 所 有 情况 下 都 能 取得 更 高 的 性 能 。 
| Public 

Submission Files Score Selected? 

Wed, 03 Feb 2016 02:37:30 xgbc_best_submissio 0.74163 Ü 

Edit description n.csv 

Wed, 03 Feb 2016 02:35:45 xgbc_submission.csv 077512 Ü 

Edit description 

Wed, 03 Feb 2016 02:31:58 rfc submission.csv 0.5598  G 

Edit description 


图 4-7 Titanic 元 难 乘客 预测 竞赛 的 提交 结果 


pas DB 影评 得 分 估计 


“4.2 Titanic 坎 难 乘客 预测 一 节 所 使 用 的 数据 ,不 论 是 其 形式 还 是 规模 都 无 法 与 大 量 
现实 分 析 任务 涉及 的 数据 相当 。 因 此 在 本 节 , 如 图 4-8 所 示 , 我 们 另 选 Kaggle 上 的 一 项 


Pyha 机 器 学 习 及 实践 


竞赛 任务 : IMDB 影评 得 分 估计 。 与 上 节 结 构 化 良好 的 小 规模 档案 数据 不 同 的 是 ,本 节 
的 竞赛 任务 要 求 参赛 者 分 析 电影 评论 网 站 的 留言 ,判断 每 条 留言 的 情感 倾向 。 不 仅 在 规 
模 上 要 上 比 泰坦 尼克 号 乘客 数据 大 上 几 个 量 级 ,而 且 原始 数据 也 不 及 之 前 的 格式 化 。 


@ © ee Bagot ‘Words Meets Bags of Popcorn 


Dashboard Competition Details + Get the Data » Make a submission 


Use Google's Word2Vec for movie reviews 


e ne> 


mantic relationships among words. 
; Such as recurrent neural nets or 
deep neural nets, bi 
Word2Vec for sentiment analysis. 


Sentiment analysis is a challenging subject in machine learning. People express their 


图 4-8 IMDB 影评 得 分 估计 竞赛 主页 了 


° 下 载 数据 : IMDB 影评 得 分 估计 竞赛 任务 一 共 为 参赛 者 提供 了 4 份 不 同 的 数据 文 
件 , 其 中 包括 : 已 经 标 有 情感 倾向 的 训练 文件 labeledTrainData. tsv, 里 面 有 
25000 条 影评 以 及 对 应 的 情感 倾向 标识 ; 待 测试 文件 testData. tsv, 同 样 也 另 有 
25000 条 电影 评论 ;还 有 一 份 无 标注 但 是 数据 量 更 大 的 影评 文件 unlabeldTrainData. 
tsv; 最 后 是 一 份 样 例文 件 sampleSubmission. csv 用 来 告知 参赛 者 最 终结 果 的 提 
交 格 式 。 

。 搭建 模型 : 接 下 来 分 别 采用 Scikit-learn 中 的 朴素 贝 叶 斯 模型 以 及 隶属 于 集成 模 
型 的 梯度 提升 树 分 类 模型 ,对 电影 评论 进行 文本 情感 分 析 。 具 体 而 言 ,如 代码 78 
所 示 , 在 朴素 贝 叶 斯 模型 中 依然 使 用 “ 词 袋 法 ”对 每 条 电影 评论 进行 特征 向 量化 ， 
并 且 借 助 Count Vectorizer 和 TfidfVectorizer; 另 一 方面 , 先 利 用 无 标注 影评 文件 
中 训练 词 向 量 , 然 后 将 每 条 电影 评论 中 所 有 词汇 的 平均 向 量 作 为 特征 训练 梯度 提 
升 树 分 类 模型 。 


© https://www. kaggle. com/c/word2vec-nlp-tutorial. 


[ 代码 78; IMDB 影评 得 分 估计 竞赛 编码 示例 了 
， 5 SRA pandas 用 于 读 取 和 写 人 数据 操作 。 
>>> import pandas as pd 


>>># 从 本 地 读 和 人 训练 与 测试 数据 集 。 
>>> train- pd.reed. cv ('. ./Datasets/IMB/labeledlrainpata .tsv', delimiter- '\t') 
>>> test=pd.read_csv('../Datasets/IMDB/testData.tsv', delimiter- '\t') 


>>># 查 验 一 下 前 几 条 训练 数据 。 


>>> train.head() 
id sentiment review 
0 | 5848 L With all this stuff going down at the moment vw... 
1 | 2381 9 1 NThe Classic War of the Worlds\"by Timothy Hi... 
2 | 759 3 0 ‘The film starts with a manager (Nicholas Bell)... 
3 | 3630 4 0 Tt mist be assured that. those who praised this ... 
4| 9495 8 I Superbly trashy and wondrously unpretentious 8... 


>>>+ 查 验 一 下 前 几 条 测试 数据 。 
>>> test.head() 


id review 


0 | 12311 10 Naturally in a film who's main themes are of m... 


1 | 838 2 This movie is a disaster within a disaster fil... 
2 | 5828 4 All in all, this is a movie for kids. We saw i... 
3| 862 Afraid of the Dark left me with the impression... 


4| 12128 7 A very accurate depiction of small time mb li... 
| D IM 
>>># 从 bs4 导 和 Beautifulsomp 用 于 整洁 原始 文本 。 

>>> fr bs4 import BeautifulSoup 

>>># 导 人 正则 表达 式 工具 包 。 

>>> import re 


四 ”部 分 参考 自 https://github. com/wendykan/DeepLearningMovies 


>>> + JÁ mltk.corpus 里 导入 停 用 词 列 表 。 
>>> fran nltk.corpus import stopwords 


>>> #5E X review to text 函数 ,完成 对 原始 评论 的 三 项 数据 预 处 理 任务 。 
>>> def review to text (review, remove_stopwords) : 

>>> HES 1: 去 掉 html 标记 。 

>>> raw text-BeautifulSoup(review, 'html') .get text() 

ES 2: 去 掉 非 字母 字符 。 

>>> — letters=re.sub('[%a-zA-Z]', ' ', raw text) 

>>> words letters.lower() split 0 

>>> + fE 3. 如 果 remove _stopwords 被 激活 , 则 进一步 去 掉 评论 中 的 停 用 词 。 
>>> if remove_stopwords: 

>>> stop words- set (stopwords words ("english")) 

>>> words [w for w in words if w not in stop words] 

>>># 返 回 每 条 评论 经 此 三 项 预 处 理 任务 的 词汇 列表 。 

>>> return words 


>>>+ 分 别 对 原始 训练 和 测试 数据 集 进行 上 述 三 项 预 处 理 。 
>>>X traire [] 

>>> for review in train['review']: 

>>> — X train.append(' '.join(review to text (review, True))) 
>>>X test- [] 

>>> for review in test ['review']: 

>>> — X test.arpend(' '.join(review to text (review, True) ) 


>>> y trair train['sentiment'] 


>>># 导 入 文本 特性 抽取 器 Countvectorizer 与 TfidfVectorizer, 

>>> fran skleam. feature_extraction.text import CountVectorizer, TfidfVectorizer 
>>> + JÁ Scikit- leam 中 导入 朴素 贝 叶 斯 模型 。 

>>> from skleam.naive bayes import MiltincmialNB 

>>># 导 入 Pipeline 用 于 方便 搭建 系统 流程 。 

>>> fran skleam.pipeline import Pipeline 

>>> # $A Gridsearchcv 用 于 超 参 数组 合 的 网 格 搜索 。 

>>> from skleam.grid_search import Gridsearchov 


>>># 使 用 Pipeline 搭 建 两 组 使 用 朴素 贝 叶 斯 模型 的 分 类 器 ,区 别 在 于 分 别 使 用 Countvectorizer 
与 THdfVectorizer 对 文本 特征 进行 抽取 。 

>>> pip_comt=Pipeline([('count_vec', OontVectorizer (aralyzer= 'word')), (wb', Miltinamialns())]) 

>>> pip_tfidf = Pipeline([(*t£idf vec', TfidfVectorizer(analyzer- 'sord')), ('mrb', MiltinamialNB ()) ]) 


>>># 分 别 配置 用 于 模型 超 参 数 搜索 的 组 合 。 

>>> params_count= {"count_vec_binary':[Tme, False], ‘comt_vec_ngram range':[(1, 1), (1, 2)], ' 
mmb_alpha': (0.1, 1.0, 10.0]) 

>>> params tfidf-('tfidf vec binary': [True, False], 'tfidf vec_ngram range':[( 1), (1, 2)], ' 
mb alpha": (0.1, 1.0, 10.0]) 


>>># 使 用 采用 4 折 交叉 验证 的 方法 对 使 用 Countvectorizer 的 朴素 贝 叶 斯 模型 进行 并 行 化 超 参 数 
搜索 。 

>>> gs_count=GridSearchcv (pip count, params count, c= 4, n jdbs-- 1, verbose= 

1) 

»»»gs comt.fit(X train, y train) 


>>># 输 出 交叉 验证 中 最 佳 的 准确 性 得 分 以 及 超 参数 组 合 。 
>>> print gs count.best score _ 
>>> print gs_count.best_params_ 


Fitting 4 folds for each of 12 candidates, totalling 48 fits 
0.88128 

(mbp alpha': 1.0, 'count vec binary': True, 'oount vec ngram range': (1, 2)} 
[Parallel(n jdos--1)]: Done 48 out of 48 | elapsed: 11.4min finished 


>>># 以 最 佳 的 超 参 数组 合 配置 模型 并 对 测试 数据 进行 预测 。 
>>> count y predict-gs count.predict (X test) 


>>># 使 用 采用 4 折 交 叉 验证 的 方法 对 使 用 Tfidfvectorizer 的 朴素 贝 叶 斯 模型 进行 并 行 化 超 参 数 
搜索 。 

>>>gs_tfidf=Gridsarctv (pip tfidf, params tfidf, cv-4, n jcbs= 1, verbose= 1) 
>>>gs_tfidf.fit X train, y train) 

>>># 输 出 交叉 验证 中 最 佳 的 准确 性 得 分 以 及 超 参 数组 合 。 


3 Phham 机 器 学 习 及 实践 


>>> print gs tfidf.best score - 
>>> print gs tfidf.best params - 


Fitting 4 folds for each of 12 candichtes, totalling 48 fits 

0.88736 

{'tfidf vec ngram rang": (1, 2), 'tfidf vec binary’: True, 'mrb alpha': 0.1) 
[Parallel(n jdbs--1)]: Done 48 out of 48 | elapsed: 12.&min finished 


>>># 以 最 佳 的 超 参数 组 合 配置 模型 并 对 测试 数据 进行 预测 。 
>>> tfidf y predict-gs tfidf.predict(X test) 


>>> + IE pandas 对 需要 提交 的 数据 进行 格式 化 。 

>>> sutmission count-pd.DataFrame (('id': test['id'], 'sentiment': count y predict}) 
>>> suümüssion tfidf-pd.DataFrame (('id': test['id'], 'sentiment': tfidf y predict}) 
>>>+ 结 果 输出 到 本 地 硬盘 。 

>>> Sutmission count.to_csv('../Datasets/IMB/sutmission count.csv', index- 

False) 

>>> submission tfidf.to csv('../Datasets/IMIB/sukmission tfidf.csv', index- 

False) 


>>># 从 本 地 读 人 未 标记 数据 。 
>>> unlabeled_train= pd.read csv ('../Datasets/IMB/unlabeledTrainData. tsv', delimiter='\t', 
quoting- 3) 


>>># 导 入 nitk.data 
>>> inport nltk.data 


>>># 准 备 使 用 nltk 的 tokenizer 对 影评 中 的 英文 句子 进行 分 割 。 
>>> tokenizer- nltk.data. load ("tokenizers /punkt/english.pickle") 


2554 XE X AM review to _sentences 逐 条 对 影评 进行 分 句 。 
>>> def review to sentences (review, tokenizer): 

>>> raw sentences- tokenizer. tokenize (review. strip()) 
>>> sentences- [] 

>>> for raw sentence in raw sentences: 


>>> if len(raw sentence) > 0: 
>>> sentences .append (review to text (raw sentence, False)) 
>>> Teturn sentences 


>>> corpora= [] 

>>># 准 备用 于 训练 词 向 量 的 数据 。 

>>> for review in unlabeled train['review']: 

>>> compora += review to sentences (review.deoode (utf8") , tokenizer) 


>>># 配 置 训练 词 向 量 模型 的 超 参数 。 
>>> num features- 300 
>>>min word count= 20 

>>> num_workers= 4 

>>> context= 10 


>>> downsampling= le- 3 


>>># 从 gensim.models $À word2vec 

>>> fram gensim.models import word2vec 

>>># 开 始 词 向 量 模型 的 训练 。 

>>> model= word2vec.Word2Vec (corpora, workers- num workers, V 
Size-num features, min count-min word count, V 
window- context, sample- downsampling) 


>>>model.init_sims (replace- True) 


>>>model_name=".. /Datasets/IMB/300features 20minwords l0context" 
>>># 可 以 将 词 向 量 模型 的 训练 结果 长 期 保存 于 本 地 硬盘 。 
>>> model .save (model_name) 


>>># 直 接 读 入 已 经 训练 好 的 词 向 量 模型 。 
>>> frm gensim.models import Word vec 
>>> model= Word2Vec. load (". ./Datasets/IMDB/300features 20minwords 10context") 


>>># 探 查 一 下 该 词 向 量 模 型 的 训练 成 果 。 
>>>model most_similar ("man") 
[(utwaman', 0.6285387873649597) , 

(u'lad', 0,5965538620948792) , 


(u"lady', 0.5933366417884827) , 
(u'guy' , 0.5359011888504028) , 
(u'soldier", 0.5327591896057129) , 
(u'priest', 0.5269299149513245) , 
(u'chap!, 0.523842453956604) , 
(u'person', 0.5220147371292114) , 
(u'monk', 0.512861967086792) , 
(u'men', 0.5102326273918152)] 


>>> import numpy as np 


>>># 定 义 一 个 函数 使 用 词 向 量 产生 文本 特征 向 量 。 
>>> def makeFeatureVec (words, model, rum features): 


>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


featureVec= np.zeros ( (num features, ),dtype= "float 32") 

TWords- 0. 

indexOword set- set (model .indexoword) 

for word in words: 

if word in index2word set: 

rWords- nwords + 1. 
featureVec- np.add (featureVec, model [word] ) 

featureVec- np.divide (featureVec, nwords) 

retum featureVec 


>>># 定 义 另 一 个 每 条 影评 转化 为 基于 词 向 量 的 特征 向 量 (平均 词 向 量 ) 。 
>>> def getAvoFeatureVecs (reviews, model, num features) : 


>>> 


>>> 


>>> 


>>> 


>>> 


>>> 


counter= 0 
TeviewReaburevecs= rp. zeros ( (len (reviews) ,nm features) ,dtype= "float32") 


for review in reviews: 
viaas [counter]=mekefeatarstec (review, model, nm features) 
counter +=1 

retum reviewFeatureVecs 


>>># 准 备 新 的 基于 词 向 量 表示 的 训练 和 测试 特征 向 量 。 
>>> clean train reviews- [] 
>>> for review in train["review"]: 


>>> — clem train reviews.arpend(review to text (review, rene stqpaorde- me) ) 


>>> trainDataVecs- getAvgFeaturevecs (clean train reviews, model, num features) 


>>> clean test reviews- [] 


>>> for review in test ["review"] : 
>>> Clean test reviews.append(review to text (review, remove stopwords- 
Tne)) 


>>> testDataVecs- getAvgFeatureVecs (clean test reviews, model, num features) 


>>># 从 skleam.ensenble $A GradientBoostingclassifier 模 型 进行 影评 情感 分 析 。 
>>> from skleam.ensenble import GradientBoostingClassifier 


>>># 从 skleam.grid search $A Gridsearchcv 用 于 超 参 数 的 网 格 搜索 。 
>>> from skleam.grid search import GridSearchcv 


>>> goc= GradientBoostingClassifier () 


>>>+ 配 置 超 参数 的 搜索 组 合 。 
>>> params_goc= ('n estimators':[10, 100, 500], 'leaming rate':[0.01, 0.1, 
1.0], 'max depth': [2, 3, 4]) 


>>> gs= GridSearchCv (doc, params doc, c= 4, n jcbs=- 1, verbose- 1) 
>>> gs.fit (trainDatavecs, y train) 


>>># 输 出 网 格 搜索 得 到 的 最 佳 性 能 以 及 最 优 超 参 数组 合 。 
>>> print gs.best_score_ 
>>> print gs.best params - 


Fitting 4 folds for each of 27 candidates, totalling 108 fits 

[Parallel (n_jobo=-1)]: Done 42 tasks | elapsed: 147.5min 
[Parallel (n_jobo=-1)]: Done 108 out of 108 | elapsed: 308.2nin finished 
0.85692 

("n estimators': 500, "learning rate': 0.1, 'mex_depth': 4} 


>>># 使 用 超 参 数 调 优 之 后 的 梯度 上 升 树 模型 进行 预测 。 
>>> result=gs.predict (testDataVecs) 
>>> output=pd.DataFrame( data= ("id":test["id"], "sentiment":result} ) 


>>> output.to_csv( "../Datasets/IMB/sibmission wWyv.csv", index- False, quoting- 3) 


=Í 


提交 结果 : 最 后 ,按照 代码 78 所 设 定 的 输出 ,我 们 得 到 三 个 用 于 提交 预测 结果 的 


文件 ,分 别 是 : submission. count. csv, submission_tfidf. csv 以 及 submission_ 
w2v. csv; 并 且 如 图 4-9 所 示 ,Kaggle 竞赛 平台 的 自动 测评 系统 给 出 了 上 述 3 个 提 
交 文件 的 最 终 性 能 表现 。 其 中 使 用 TfidfVectorizer 搭配 朴素 贝 叶 斯 模型 取得 了 


最 好 的 预测 性 能 。 
Public Private 
Submission Files Score Score Selected? 
Post-Deadline: Mon, 15 Feb 2016 04:24:49 submission 0.85468 — 0.85468 
Edit description W2v.csv 
Post-Deadline: Mon. 15 Feb 2016 04:24:21 submission t 0.86508 0.86508 
Edit description fidf.csv 
Post-Deadline: Mon, 15 Feb 2016 04:23:16 submission c 0.86372 0.86372 
Edit description ount.csv 


图 4-9 IMDB 影评 得 分 预测 竞赛 的 提交 结果 


pas IST 手写 体 数字 图 片 识别 


与 前 面 两 项 与 文本 分 析 相 关 的 竞赛 任务 不 同 ,MNIST 手写 体 数 字 图 片 识别 竞赛 主 
要 关注 对 数字 图 片 的 识别 。 并 且 在 数据 规模 和 图 片 分 辩 率 上 ,也 远 远 高 于 之 前 在 书 中 月 


到 的 Scikit-learn 中 集成 的 数据 。 曾 经 ,这 项 任务 是 那些 从 事 图 像 相关 的 机 器 学 习 研 究 者 
的 经 典 入 门 级 课题 。 现 在 ,如 图 4-10 所 示 , 这 个 任务 数据 同样 也 被 发 布 到 Kaggle 上 , 供 


全 世界 的 兴趣 爱好 者 免费 下 载 分 析 与 学 习 。 


° 下 载 数据 : 这 个 任务 所 提供 的 下 载 数据 非常 简单 清晰 ,只 有 两 个 文件 ,分 别 是 带 
有 数字 类 别 的 train. csv 与 测试 文件 test. csv。 每 个 手写 体 数字 图 像 在 这 两 份 文 
件 中 都 被 首尾 拼接 为 一 个 28X28 二 784 维 的 像素 向 量 , 而 且 每 个 像素 都 使 用 [0， 
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图 4-11 MNIST 手写 体 数字 图 片 像素 表示 矩阵 ,图 片 来 自 于 Tensorflow. org 


。 搭建 模型 : 接 下 来 ,我 们 将 采用 多 种 基于 skflow 工具 包 的 模型 完成 大 规模 手写 体 


数字 图 片 识别 的 任务 。 如 代码 79 所 示 , 这 些 模型 包括 : 线性 回归 器 、 全 连接 六 
含 三 个 隐 层 的 深度 神经 网 络 (DNN) 以 及 一 个 较为 复杂 但 是 性 能 强大 的 卷 积 宰 


网 络 (CNN)。 


© https://www. kaggle. com/c/digit-recognizer 


ta 
经 


| 代码 79: MNIST 手写 体 数字 图 片 识别 竞赛 编码 示例 了 


# 导 入 pandas 并 重 命名 为 pa, 
>>> import pandas as pd 


# 使 用 pandas 从 本 地 读 取 MTsT 手 写 体 数字 训练 图 片 集 。 
>>> train- pd.read_csv('../Datasets/MNIST/train.csv') 

# 查 验 训练 样本 数量 为 42000 条 ;数据 维度 为 785。 

>>> train.shape 

(42000, 785) 


# 使 用 pandas 从 本 地 读 取 MNIST 手 写 体 数字 测试 图 片 集 。 
>>> test=pd.read_csv("../Datasets/MNIST/test.csv') 

+ 查验 训练 样本 数量 为 28000 条 ;特征 维度 为 784, 

>>> test.shape 

(28000, 784) 


+ 将 训练 集中 的 数据 特征 与 对 应 标记 分 离 。 
>>> y train- train['label'] 
>>> X_train= train.drop('label', 1) 


+ 准备 测试 特征 。 
>>>X_test= test 


分别 导入 tensorflow 5j skflow, 
>>> import tensorflow as tf 
>>> import skflow 


HEH skflow 中 已 经 封装 好 的 基于 tensorflow 措 建 的 线性 分 类 器 Tensor¥lowLinearClas sifier Ë fT 


学 习 预 测 。 


>>> classifier= skflow.TensorFlowLinearClassifier(n classes- 10, batch size= 


100, steps- 1000, learning rate- 0.01) 
>>> classifier.fit(X train, y train) 
Step #1, avg. loss: 150.07220 

Step #101, avg. loss: 21.13627 

‘Step #201, avg. loss: 7.63181 


O 部 分 参考 自 https://github. com/tensorflow/skflow/blob/master/examples/mnist. py 


Step #301, avg. loss: 6.42357 
Step #401, avg. loss: 6.15198 

Step #501, epoch #1, avg. loss: 4.97943 
Step # 601, epoch #1, avg. loss: 5.07608 
Step #701, epoch #1, avg. loss: 5.24003 
Step # 801, epoch #1, avg. loss: 4.96451 
Step #901, epoch #2, avg. loss: 4.63976 


>>> linear y predict= classifier.predict (X test) 


>>> Linear_submission=pd.DataFrame (( 'ImageId' :range(1, 28001), 'Label': linear y predict}) 
>>> linear sutmission.to csv('../Datasets/MNIST/linear sutmissicn.csv', index- False) 


HE skow th E, Bes 38 tf AY 38 F tensorflow 搭 建 的 全 连接 深度 神经 网 络 TensorFlowDNNClassifier 
进行 学 习 预 测 。 

>>> classifier= skflow.TensorFlowrNNC1assifier (hidien units- [200, 50, 10], n classes- 10, steps- 
5000, learning rate=0.01, batch size= 50) 

>>> classifier.fit X train, y train) 

Step #1, avg. loss: 46.02682 

Step #501, avg. loss: 1.89034 

Step #1001, epoch #1, avg. loss: 0.90703 

Step #1501, epoch #1, avg. loss: 0. 

Step # 2001, epoch #2, avg. loss: 
Step #2501, epoch #2, avg. loss: 
Step #3001, epoch #3, avg. loss: 
Step # 3501, epoch # 4, avg. loss: 
Step # 4001, epoch #4, avg. loss: 0. 
Step # 4501, epoch #5, avg. loss: 0.14044 


>>> dm y predict- classifier.predict X test) 


>>> dn suümissicn-pd.DataErame ({"Imageld" :range (1, 28001), "Iabel': dnn y predict}) 
>>>dnn_suimission.to_csv('../Datasets/MNIST/dnn_submission.csv', index- 
False) 


# 使 用 Tensorflow 中 的 算 子 自行 搭建 更 为 复杂 的 卷 积 神经 网 络 , 并 使 用 skflow 的 程序 接口 从 事 
MTST 数 据 的 学 习 与 预测 。 

»»»def max pool 2x2 (tensor in): 

>>>  retum tf.mn.max pool (tensor in, ksize= l, 2, 2, 1], strides- [1, 2, 2, 1], padding= 'SaM") 


>>> def onv mèl (X, y): 
>>> X-tf.reshepe(X, [- 1, 28, 28, 1]) 
>>> with tf.variable scope ("conv layerl'): 


> h_convl= skflow. ops. convad (X, n filters- 32, filter shape- [5, 5], bias- True, 
activation-tf.nn.relu) 
>>> h pooll-mex pool_2x2 (h_conv1) 
>>> with tf.variable soope('conv layer2'): 
>>> h anv% skflow.cps.conv2d(h pooll, n filters- 64, filter shape- [5, 5], 
bias- True, activation- tf.nn.relu) 
>>> h pool2-mex pool 2x2(h conv2) 
» h pool2 flat-tf.reshape(h pool2, [-1, 7 * 7 * 64]) 


>>> h fcl-skflow.ops.dnn(h pool2 flat, [1024], activaticn- tf.nn.relu, keep prab- 0.5) 
» return skflow.mbdels.logistic regression(h fcl, y) 


>>> classifier= skflow.TensorFlowEstimator(model fn- conv_model, n classes- 
10, batch size- 100, steps- 20000, learning rate- 0.001) 
»»»classifier.fit(X train, y train) 

Step #1, avg. loss: 123.86279 

Step # 2001, epoch # 4, avg. loss: 5.31864 

Step # 4001, epoch #9, avg. loss: 0.25143 

Step # 6001, epoch #14, avg. loss: 0.09304 

Step # 8001, epoch #19, avg. loss: 0.03642 

Step #10001, epoch # 23, avg. loss: 0.01281 

Step #12001, epoch # 28, avg. loss: 0.00471 

Step #14001, epoch # 33, avg. loss: 0.00199 

Step #16001, epoch # 38, avg. loss: 0.00095 
Step & 18001, epoch # 42, avg. loss: 0.00051 


TensorflowEstimator(batch size- 100, continue training= False, early stopping 


rounds-None, keep checkpoint every n hours- 10000, learning rate=0.001, max to keep=5, model fr= 
< function conv mpdel at. 0x1082cdf50» , n classes- 10, num cores- 4, aptimizer- 'SGD', steps- 20000, tf. 


master='', tf randm seed- 42, verbose- 1) 


+ 这 里 务必 请 读者 朋友 在 实战 中 注意 , 不 要 直接 将 所 有 测试 样本 交 给 模型 进行 预测 。 由 于 
+ Tensorflow 会 同时 对 所 有 测试 样本 进行 矩阵 运算 ,一 次 对 28000 个 测试 图 片 进行 计算 会 消耗 

# 大 量 的 内 存 和 计算 资源 。 这 里 所 采取 的 是 逐 批 次 地 对 样本 进行 预测 ,最 后 拼接 全 部 预测 结果 
>>> conv_y predict- [] 

>>> import numpy as rp 

>>> for i in np.arange (100, 28001, 100): 

>>> conv y predict- np.append(conv y predict, classifier.predict X test[i — 100:1])) 

>>> conv_submission=pd.DataFrame({"Imageld" :range (1, 28001), 'Label': np.int32(conv y predict)]) 

>>> cor submission.to csv('../Datasets/MNIST/conv sumission.csv', index- 

False) 


J 


* 提交 结果 : 最 后 ,按照 代码 79 所 期 待 的 输出 ,我们 得 到 3 个 用 于 提交 预测 结果 的 
文件 ,它们 分 别 是 : linear_ submission. csv, dnn _ submission. csv 以 及 conv_ 
submission. csv。 并 且 如 图 4-12 所 示 ,Kaggle 竞赛 平台 的 自动 测评 系统 给 出 了 上 
jË 3 个 提交 文件 的 最 终 性 能 表现 。 其 中 卷 积 神经 网 络 (CNN) 模 型 取得 了 最 佳 的 
预测 性 能 ,具体 原因 请 读者 参考 纽约 大 学 教授 Yann LeCun 的 论文 [20] 以 及 他 
所 发 布 的 MNIST 研究 网 站 : http://yann. lecun. com/exdb/mnist/ 。 


public 

Submission Files Score Selected? 
Mon, 15 Feb 2016 02:56:08 conv submission.csv 097857 @ 

Edit description 

Mon, 15 Feb 2016 02:55:11 dnn submissioncsv — 0.95000 @ 

Edit description 

Mon, 15 Feb 2016 02:54:37 linear submission.sv 0.86100 @ 

Edit description 


图 4-12. MNIST 手写 体 数 字 图 片 识别 竞赛 的 提交 结果 
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本 章 为 各 位 读者 提供 了 一 个 非常 出 色 的 实践 平台 Kaggle, 并 且 示范 了 如 何在 这 个 平 
台 上 进行 机 器 学 习 的 实战 演练 。 一 般 而 言 , 对 于 像 Kaggle 这 样 的 在 线 数据 分 析 竞 赛 平 
台 , 都 遵照 下 载 数据 ,搭建 模型 和 提交 结果 三 个 步骤 。 并 且 多 数 情 况 下 ,并 不 要 求 参 赛 者 
在 其 指定 的 平台 上 运行 源 代码 。 因 此 就 使 得 参赛 的 兴趣 爱好 者 可 以 更 加 灵活 地 搭建 预测 
模型 , 既 可 以 自行 编程 ,也 可 以 使 用 大 量 开源 的 工具 包 。 

考虑 到 不 同 的 数据 形式 ,在 本 章 为 读者 挑选 了 三 个 在 Kaggle 平台 上 的 竞赛 任务 ,分 
别 是 基于 结构 化 数据 .无 结构 文本 以 及 图 像 的 分 析 和 预测 问题 。 同 时 ,综合 使 用 了 许多 在 
本 书 中 提 到 的 经 典 以 及 最 新 的 机 器 学 习 模 型 .数据 处 理 技巧 和 性 能 提升 方法 。 期 待 各 位 
可 以 从 中 获 益 。 

最 后 , 祝 大 家 在 Kaggle 上 实战 愉快 ,同时 也 可 以 发 送 电 邮 与 作者 讨论 实战 经 验 。 本 
章 所 有 数据 与 代码 示例 都 可 以 通过 此 链接 http: //pan. baidu. com/s/1dENAUTr 以 及 
http://pan. baidu. com/s/1nvitu8T 下 载 。 


2015 年 12 月 的 一 天 夜里 ,我 在 纽约 的 家 中 收 到 清华 大 学 李 超 老师 的 一 则 微 信 。 她 
说 她 本 人 非常 欣赏 我 在 网 络 上 发 表 的 数 个 有 关 如 何 使 用 Python 快速 搭建 机 器 学 习 系 统 
和 在 Kaggle 竞赛 平台 上 实战 的 帖子 ,并 且 和 希望 我 整理 出 一 本 书 出 版 。 

开始 我 还 很 话 异 ,因为 我 在 网 上 发 表 的 所 有 帖子 都 是 日 常 学 习 工 作 的 经 验 之 谈 , 随 性 
之 作 ; 没 有 太 多 的 多 辑 可 言 , 更 别 说 出 版 书籍 了 。 当 时 发 表 那 些 帖子 的 初衷 ,只 是 不 希望 
很 多 机 器 学 习 爱 好 者 重 蹈 我 在 实践 中 的 错误 ,也 希望 可 以 帮助 更 多 的 同学 快速 上 手 并 且 
体验 实战 中 乐趣 。 

但 是 , 当 我 接 下 整理 这 部 书稿 的 任务 之 后 ,忽然 感觉 自己 身上 的 担子 重 了 很 多 。 特 别 
是 在 得 知 这 本 书 很 有 可 能 被 选 为 通用 教材 之 后 ,立刻 发 现 之 前 所 有 我 发 布 在 互联 网 上 的 
帖子 几乎 都 不 可 用 。 原 因 是 ,作为 一 部 教材 就 更 要 设身处地 为 读者 着 想 , 尤 其 是 这 本 教材 
的 目标 受众 不 仅仅 是 计算 机 专业 人 士 ,更 有 非 计算 机 专业 的 爱好 者 和 初 和 此 道 的 本 科 生 。 
所 以 ,我 几乎 重新 编制 了 整 部 书 的 提纲 ,参考 网 上 的 帖子 重 写 了 第 2 章 和 第 3 章 , 并 且 考 
虑 到 不 同 层次 读者 的 需求 ,增加 了 第 1 章节 的 Python 编程 基础 和 第 4 章 Kaggle 竞赛 实 
战 等 相关 内 容 。 

尽管 时 间 仓 促 , 作 者 也 力求 全 书 条 理 清晰 .深入浅出 ;但 也 有 因 能 力 所 限 PT AN 2 
处 ,还 望 各 位 朋友 批评 指正 ,及 时 勘误 ;也 欢迎 大 家 发 邮件 到 fanmiao. cslt. thu@ gmail. 
com 参与 讨论 。 

最 后 ,感谢 您 购 阅 (Python 机 器 学 习 及 实践 》, 并 借 由 作者 本 人 时 常 所 引用 斯 蒂 夫 。 
乔布斯 的 一 句 名 言 ,作为 本 书 的 收尾 : 求知 若 饥 .虚心 若 思 (Stay Hungry. Stay Foolish), 


希望 在 今后 的 人 生 道路 上 能 与 读者 朋友 们 共勉 。 
# d 
gH 


写 于 中 国 北京 清华 园 
2016 年 5 月 1 日 
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图 1-4 使 用 10 条 训练 样本 得 到 的 二 类 分 类 器 (绿色 直线 ) 图 1-5 使 用 所 有 训练 样本 得 到 的 二 类 分 类 器 ( 蓝 色 直 线 ) 


CNPython27\pythonexe k= Xx | 


图 1-7 Python 解释 器 Windows 运行 界面 
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图 1-8 Windows 操作 系统 下 Python 环境 变量 配置 


Le Python 27.10 Shell 

= 一 一 一 = 

Ele Edit Shell Debug Options Window Help = 一 一 一 一 一 一 = 
Python 2.7.10 (default, May 23 2015, 09:44:00) [MSC v.1500 64 bit (AMD64)] on wi 
n32 


Type "copyright", "credits" or "license()" for more information. 
>>> print 'Hello Everyone'' 

Hello Everyone! 

>>> 


图 1-9 Windows 操作 系统 下 Python IDLE 运行 界面 
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T1]: import pandas 25 pd 


df train = pd.read_csv(".. Datasets /Breast-Cancer/breast-cancer-train.csv") 


[2]: (dt test = pd.read csv(". ./Datasets/Beeast-Cancer/breast-cancer-test.csv") 


13]: (df test negative ~ df test loc{ae test[ Type'] a= 8][['Clusp Thichness", “Cell Size']] 
df test positive ~ df test loc[df test[ Type] == 1][['Clump Thickness", ‘Cell Size"]] 


L4]: inport matplot1ib.pyplot as pit 


pht.scatter(dt test negative['Clump Thickness’ ] df test negative['Cell Size'], marker ~ ‘0°, 
Plt.scatter(dé test positive['Clump Thickness’ st positive['Cell Size], marker = "x 
Plt.xlabel(Clump Thickness) 

plt-ylabel( "Cell Size") 

Pt shou() 


(C:\Anaconda2\1ib\site-packages\matplot]ib\collections.py:596: FutureMarming: elesentwise comparison failed; returning scalar ins 
tead, but in the future will perform elomentcise comparison 
df self. edgecolors == str(“face"): 


图 1-10 Python 解释 器 界面 


Ri = _jieleizhu$ curl http: ype. 1o/ge! "Dy. »-9e! 
* Total — & Received % Xferd Average Speed Time Time Time Current 
I Dload Upload Total Spent Left Speed 

[100 1476k 100 1476k 


WARNING: Improper use of the sudo command could lead to data loss 
or the deletion of important system files. Please double-check your 
[typing when using sudo. Type "man sudo" for more information. 


To proceed, enter your password, or type Ctrl-C to abort. 


Password: 
The directory '/Users/jieleizhu/Library/Caches/pip/http' or its parent directory is not t 
wner of that directory. If executing pip with sudo, you may want sudo's -H flag. 
The directory '/Users/jieleizhu/Library/Caches/pip' or its parent directory is not owned 
| that directory. If executing pip with sudo, you may want sudo's -H flag. 
Collecting pip 

Downloading pip-8.8.0-py2.py3-none-any.whl (1.2MB) 


100% | n | 1.2468 369k8/s 
Collecting wheel 
Downloading wheel-8.26.0-py2.py3-none-any.whl (63kB) 
100€ UL 
Installing collected packages: pip, wheel 
Successfully installed pip-i wheel-0.26.0 


图 1-13 Mac OS T pip 安装 步骤 


Supervised Learning Model 


图 2-1 监督 学 习 基本 架构 和 流程 


B24 混淆 矩阵 示例 
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图 2-5 包括 支持 向 量 机 分 类 器 在 内 的 多 种 分 类 直线 图 2-6 K 近邻 算法 展示 样 例 


scikit-learn 
algorithm cheat-sheet 


图 2-8 Scikitlearn 工具 包 模 型 使 用 建议 (图 片 来 源 于 http://scikit-learn. org/ 
stable/tutorial/machine_learning_map/index. html) 


Input Space Feature Space 


图 2-9 利用 核 函 数 将 线性 不 可 分 的 低 维 输入 ,映射 到 
高 维 可 分 的 新 特征 空间 ,图 片 摘自 于 互联 网 


iteration 1 iteration 2 iteration 3 
Wie . woe 


2-10 K-means 算法 迭代 过 程 示例 ,图 片 摘 自 于 互联 网 


Instances K = 2, silhouette coefficient= 0.471 
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图 2-11 ABR ROF tH [e] 2 S Ë$ 8 K-means 聚 类 结果 示例 
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2-13 K-means 算法 迭 全 局 最 优 解 与 局 部 最 优 解 的 比较 ,图 片 摘 自 于 互联 网 
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图 2-17 手写 体 数字 图 像 经 PCA 压缩 后 的 二 维 空间 分 布 
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图 3-2 ”线性 回归 模型 在 比萨 训练 样本 上 的 拟 合 情 况 
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图 3-3 2 次 多 项 式 回 归 与 线性 回归 模型 在 比萨 训练 样本 上 
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合 情 况 比 较 
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图 3-4 4 次 多 项 式 回归 与 其 他 模型 在 比萨 训练 样本 上 的 拟 
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图 3-8 ”使 用 Tensorflow 自 定义 一 个 线性 分 类 器 在 “ 良 /恶性 
乳腺 癌 肿 瘤 "数据 上 学 习 到 的 二 分 类 直线 


的 拟 合 情 况 比较 
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图 3-13 使 用 感知 机 区 分 并 (AND)、 与 非 (NAND) (OR) UERR 
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(XOR) 运 算 所 产生 的 数据 ,图 片 摘自 [8] 
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图 3-9 使 用 Scikit-learn 的 LogisticRegression 模型 训练 
得 到 的 二 分 类 直线 


12 


